機械学習を用いた未来予測を行いたい

前提・実現したいこと

車が写っている画像を入力した時，その車が数秒後にはどこに移動しているかを出力させたいのですが，
CNNとLSTMを組み合わせたものや，ConvLSTMという層など，色々あるのでどれが自分のやりたいことに合っているのかがわかりません．

また，層の構成などもわかりませんが，
入力→Conv→Pooling→Conv→Pooling→・・・Conv→Pooling→RNN→出力

というようなサイトを見つけました．
https://qiita.com/God_KonaBanana/items/a6ee73cf0110c044815b

概ねこのような層の構成で良いのでしょうか？

他にも論文などあればご教授願います．

退会済みユーザー

2021/10/16 07:04 編集

1.画像とは別に速度も提供されるのか 2.ポリツァイのカメラのようにブレを意図的に持たせてシャッター速度から移動速度を割り出せるのか 3.パラパラ漫画の要領で画像の入力（＝ビデオ）を元に速度を割り出すのか 4.完全にぶれのない画像一枚のみから速度を割り出してしまうような諜報機関の人から声がかかりそうなことをしようとしているのか 5.もっと別なのかどれになるのでしょうか？ 1なら画像なしでも済む話ですし、2であればブレている領域を画像処理的に抽出してピクセル数とシャッター速度から速度を計算するのかもしれませんし、3であればYOLOとカルマンフィルタでどれくらいの速度で移動しているか（少なくとも画素単位では）わかるので、スケール感を加味すれば計算できるかもしれませんし、5はあれば聞きたいです。ここまでの方法で車の現状の移動速度は分かるので、あとはいろいろな方法で未来を外挿する感じになると思います。 4は多分無理だと思います。…機械学習では人間も予想できないことは（例外があるかもしれませんので「大体」）予想できないとみていいと思います。

PJwnOI

2021/10/19 00:19

返信が遅れました．申し訳ありません．イメージとしては https://www.youtube.com/watch?v=OT_MxopvfQ0 の動画の通りです．

退会済みユーザー

2021/10/19 09:24 編集

タイトルで検索するとトップに(https://becominghuman.ai/predicting-the-future-with-rnns-527eceaa8be9)でできます。目的は将来を予測したい、であれば手段はいろいろあります。認識は深層学習が圧倒的に精度が高いのは自明ですが、予測まで深層学習でないと困る理由があるのでしょうか？いきなり「手法もわからない困った助けてくれ」の状態でLSTMに突っ込むのは無謀に見えるためです。もしやるのであれば、誰か既に実装しているコードを読み解くところから始めた方が良いように思います。

PJwnOI

2021/10/23 11:44

わかりました。頑張ってみます。