3DCNN+Resnetのkerasでの実装方法がわからない

機械読唇をkerasで行っているのですが、Conv3Dを通して出力されたものをResnetに入力する方法がわかりません。
入力は96*96の25フレームの画像で、
(96,96,25,3)が入力となっています。
理想としてはMaxpooling3Dを通して出力された(32,32,25,64)で
1フレームごとに(32,32,64)でResnetに入力したいです。

Python
1ResNet = keras.applications.resnet50.ResNet50(include_top= False,weights=None, input_tensor=None, input_shape=(32,32,64),pooling=None, classes=25)
2
3
4model = Sequential()
5model.add(Conv3D(64, kernel_size=(3, 3, 3), input_shape=(X_train.shape[1:]), padding="same"))
6model.add(BatchNormalization())
7model.add(Activation('relu'))
8model.add(MaxPooling3D(pool_size=(3, 3, 1)))
9model.add(Reshape((32,32,64)))
10model.add(ResNet)

Microsoft Visual Studio2017
tensorflow 2.4.1
keras2.4.3
Python 3.6.13

退会済みユーザー

2021/10/10 13:07 編集

本題とずれてしまうかもしれませんが、Kerasの標準は(batch, height, width, channel)もしくは( height, width, channel)だったと思います。(96,96,25,3)より(25, 96, 96, 3)とか(25, 32 ,32, 64)の方が自然な気がします。

furutti

2021/10/10 16:32

確かにその方が自然ですね、ご指摘ありがとうございます。

toast-uz

2021/10/10 23:06

あまりよくわかっていませんが、3d ResNetにおいて、2d ResNetにつなげる実装があるのでしょうか？「kerasでの実装方法がわからない」というご質問なので、PyTorchの既存実装が既に見つかっていれば教えて下さい。3d ResNetをググると、keras・PyTorchに関わらず、どれもResidential blockを3dで実装しなおしたもののようで、質問者様が言われているような2d ResNetにつなげる実装は見当たりませんでした。

furutti

2021/10/11 01:57

自分もちゃんと理解しているわけではないのですが、https://arxiv.org/pdf/1703.04105v4.pdf、https://arxiv.org/pdf/2003.06439v1.pdf、https://arxiv.org/pdf/2001.08702v1.pdf これらの論文は3DCNNを通した後にResnetを通して特徴抽出を行っているように見えました。

toast-uz

2021/10/11 03:54

ありがとうごさいます。確かに2d ResNetにつなげているようですね。