CNNとLSTMを組み合わせたモデルのLSTMのパラメータ

CNNとLSTMを組み合わせたモデル(LRCNなど)について質問があります。
LRCNを用いて動作認識をする際、LSTMの隠れ層の数は何に対応しているのでしょうか。私は動画のフレーム数に対応していると思っていましたが、以下の論文の例(Activation Recognition)では、動画のフレーム数16に対して隠れ層の数を256,512,1024と設定しているようです。
https://arxiv.org/abs/1411.4389
教えていただけると幸いです。よろしくお願いいたします。

jbpb0

2021/05/23 23:47

> 私は動画のフレーム数に対応していると思っていました何でそう思うのでしょうか？

Yoz_9

2021/05/24 02:40

ご回答ありがとうございます。 https://kobiso.github.io/research/research-lrcn/ 上URLでも紹介されている論文中の図では、LRCNは各フレームをCNNを介してLSTMに入力しています。 https://deepage.net/deep_learning/2017/05/23/recurrent-neural-networks.html 私は、RNNを上URLの図のように、入力x_iを隠れ層ごとに入力する必要があると理解しています。その入力x_iが今回はフレームに置き換えられたと思った次第です。

jbpb0

2021/05/24 07:35 編集

> 動画のフレーム数に対応している https://qiita.com/everylittle/items/ba821e93d275a421ca2b の「固定長の系列を入力する場合」のコードを見てください下記は異なります num_hidden_units = 128 # 隠れ層のユニット数 len_sequence = 10 # 時系列の長さ

jbpb0

2021/05/24 07:34 編集

> LSTMの隠れ層の数は何に対応している下記が参考になると思います https://towardsdatascience.com/counting-no-of-parameters-in-deep-learning-models-by-hand-8f1716241889#192e の「Example 2.1: LSTM with 2 hidden units and input dimension 3.」 https://medium.com/analytics-vidhya/text-lstm-f1aaceeb5727 の「LSTM representation for 3 Hidden Unit」