前提・実現したいこと
車が写っている画像を入力した時,その車が数秒後にはどこに移動しているかを出力させたいのですが,
CNNとLSTMを組み合わせたものや,ConvLSTMという層など,色々あるのでどれが自分のやりたいことに合っているのかがわかりません.
また,層の構成などもわかりませんが,
入力→Conv→Pooling→Conv→Pooling→・・・Conv→Pooling→RNN→出力
というようなサイトを見つけました.
https://qiita.com/God_KonaBanana/items/a6ee73cf0110c044815b
概ねこのような層の構成で良いのでしょうか?
他にも論文などあればご教授願います.
あなたの回答
tips
プレビュー