tensorflow.keras Conv2Dのpaddingの仕様が分からない

前提・実現したいこと

現在、「PythonとKerasによるディープラーニング」という本で勉強をしています。
p258にあったコードでpaddingのパラメータが正しく動いていないのではと思うところがあります。
layers.add()の所できちんと出力のサイズが揃う理由についてご教授いただきたいです。

発生している問題・エラーメッセージ

エラーは起きていないのですが、residual = layers.Conv2D()の所で
padding='same'としてもpadding='valid'としてもyの出力とサイズがあってしまいます。
padding='same'は入力のサイズと同じになるようにパディングを行うはずですので、
conv2d_2 (Conv2D) のOutput Shapeは(None, 374, 500, 128)となり、add層の所でサイズの違いによるエラーが出ると思うのです。

該当のソースコード

python
1from tensorflow.keras import Input, layers
2from tensorflow.keras.models import Model
3
4x = Input(shape=(374, 500, 3))
5y = layers.Conv2D(128, 3, activation='relu', padding='same')(x)
6y = layers.Conv2D(128, 3, activation='relu', padding='same')(y)
7y = layers.MaxPooling2D(2, strides=2)(y)
8residual = layers.Conv2D(128, 1, strides=2, padding='same')(x)
9output = layers.add([y, residual])
10
11model = Model(x, output)
12model.summary()

出力結果


    Model: "functional_1"
    __________________________________________________________________________________________________
    Layer (type)                    Output Shape         Param #     Connected to                     
    ==================================================================================================
    input_1 (InputLayer)            [(None, 374, 500, 3) 0                                            
    __________________________________________________________________________________________________
    conv2d (Conv2D)                 (None, 374, 500, 128 3584        input_1[0][0]                    
    __________________________________________________________________________________________________
    conv2d_1 (Conv2D)               (None, 374, 500, 128 147584      conv2d[0][0]                     
    __________________________________________________________________________________________________
    max_pooling2d (MaxPooling2D)    (None, 187, 250, 128 0           conv2d_1[0][0]                   
    __________________________________________________________________________________________________
    conv2d_2 (Conv2D)               (None, 187, 250, 128 512         input_1[0][0]                    
    __________________________________________________________________________________________________
    add (Add)                       (None, 187, 250, 128 0           max_pooling2d[0][0]              
                                                                     conv2d_2[0][0]                   
    ==================================================================================================
    Total params: 151,680
    Trainable params: 151,680
    Non-trainable params: 0
    __________________________________________________________________________________________________

試したこと

・Inputのサイズを(None, 375, 500, 3)にして出力のサイズが違う者同士だとadd層で結合ができないことを確認
・Conv2Dの公式ドキュメントを確認
・addの公式ドキュメントを確認
・padding add などのキーワードを含めて検索をしたものの、該当するような記事を見つけられませんでした。

補足情報（FW/ツールのバージョンなど）

windows10 conda仮想環境
すべてconda installにて環境構築
python 3.8.11
tensorflow 2.3.0
tensorflow-base 2.3.0
tensorflow-estimator 2.6.0
tensorflow-gpu 2.3.0
numpy 1.19.4
jupyter 1.0.0
jupyter_client 7.0.1
jupyter_console 7.0.1
jupyter_core 4.8.1

行動規範の内容に同意します

回答1件

ベストアンサー

padding='same'としてもpadding='valid'としてもyの出力とサイズがあってしまいます。

tf.nn.convolution
の下の方にある
If padding == "SAME":...
と
If padding == "VALID":...
を見比べたら分かりますように、畳み込みフィルタのサイズ(spatial_filter_shape[i])が1の場合は、
If padding == "VALID":...
の計算式の「- (spatial_filter_shape[i]-1) * dilation_rate[i]」の部分が「0」になり実質無くなるので、
If padding == "SAME":...
と同じ計算結果になります

padding='same'は入力のサイズと同じになるようにパディングを行うはずですので、

conv2d_2 (Conv2D) のOutput Shapeは(None, 374, 500, 128)となり

「strides=2」で割られるので、そうはなりません

投稿2021/11/04 12:59

jbpb0

総合スコア7653

ryou_T

2021/11/04 15:37 編集

keras、tensorflowでのconv2dについての記述は調べていましたが、convolutionの方は全く見ておりませんでした。詳しい解説をしていただき、理解することができました。ご教授いただきありがとうございました。

ryou_T

2021/11/04 15:52

すみません、私の勉強不足によるおかしな疑問かもしれませんが、私の使った関数はtf.keras.layers.Conv2Dですので、jbpb0様に提示していただいたtf.nn.convolutionとは実装が違うのではないかと思ってしまいました。ただ、tf.nn.convolutionの実装で考えた場合に辻褄は合うことも理解しております。tf.keras.layers.Conv2Dの内部ではtf.nn.convolutionが使われているという事なのでしょうか。繰り返しの質問になってしまい申し訳ありません。

ryou_T

2021/11/04 16:05

すみません、先ほどの疑問ですが自己解決いたしました。ソースコードを見ることができることに気が付き、 https://github.com/keras-team/keras/blob/master/keras/layers/convolutional.py#L225-L240 を拝見しましたところ、tf.nn.convolutionが使われておりました。

ryou_T

2021/11/05 03:46

自己解決いたしましたと書いてしまったのですが、def convolution_opconvolution_op(self, inputs, kernel)と書いてあったので、tf.keras.layers.Conv2Dの実装ではありませんでした。