動画データの分類を行おうとしているのですが、3D ResNetの実装方法についてお聞きしたいです。3D ResNetについて少し調べていると、入力は動画データを静止画の連続として捉え、縦、横、フレーム数、チャンネル?としているんですかね。その場合、入力データの作成方法がわかりません。動画データをそのような4次元データに変換する方法を教えていただきたいです。
以下のモデルに動画データを変換したものを入力すれば学習できるのでしょうか。このモデルの((96,96,96,1),20)の意味も教えていただきたいです。
from resnet3d import Resnet3DBuilder model = Resnet3DBuilder.build_resnet_50((96, 96, 96, 1), 20) model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy']) model.fit(X_train, y_train, batch_size=32)
あなたの回答
tips
プレビュー