CNNとLSTMを組み合わせたモデル(LRCNなど)について質問があります。
LRCNを用いて動作認識をする際、LSTMの隠れ層の数は何に対応しているのでしょうか。私は動画のフレーム数に対応していると思っていましたが、以下の論文の例(Activation Recognition)では、動画のフレーム数16に対して隠れ層の数を256,512,1024と設定しているようです。
https://arxiv.org/abs/1411.4389
教えていただけると幸いです。よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー