畳み込み層とレイヤーの関係について

疑問点

32x32x3(3つのレイヤー)の入力に対して6つのフィルターを畳み込むと、28x28x6(6つのレイヤー)のテンソルに変換できるような説明が様々なところで見受けられますが[1]、この変換がどのようになっているのか詳しい説明があるところが無くわかりません。

仮定

個人的な推測になりますが、3つのレイヤーに2つずつのフィルターを適用し、1つのレイヤーから2つの新しいレイヤーを新たに生成するというアルゴリズムではないかと思いました。(2,2,2)

仮定があっているか

しかし、この個人的推測は間違いではないかと考えています。なぜなら、上の例だと5つのフィルターで畳み込むことが可能[2] (kerasで実行できるうえにそのような検索結果も出ている)だからです。

仮定のアルゴリズムで3つのレイヤーを5つのフィルターで畳み込もうとすると、どうしても一つのレイヤーだけ適用できるフィルターの数が一つだけになってしまいます。(2,2,1)

参考文献に乗っている1.5倍の例も同様です。

改めて聞きたいこと

このように、レイヤーとフィルターの関係がわからないので正しいアルゴリズムを教えてください。

参考文献

[1] (参考例)https://qiita.com/icoxfog417/items/5fd55fad152231d706c2
[2] https://jp.mathworks.com/matlabcentral/answers/473742-cnn(その際、フィルター数を1.5倍にしたり、３倍にもできると思います。)

行動規範の内容に同意します

回答2件

畳み込み演算は次のページの方が丁寧に説明されていると思います。
(一部だけ引用しますが、リンク先のページの最初から順を追って見ていけば(実際に計算してみれば)畳み込みで高さと幅とチャネルが減っていくのがわかると思います)

簡単な例として、1チャネルのインプットデータを3つのチャネルにする場合は、カーネルを3つ用意し、それぞれに畳み込み演算を行います。

これでアウトプットが3x3x3(チャネル)となりました。
$𝐶_in$ チャネルのインプットデータを出力がさらに $𝐶_out$ チャネルにする場合は、 $𝐶_in$ 個ののカーネルを $𝐶_out$ 組用意して、同じように畳み込み処理をします。

https://data-analytics.fun/2021/11/23/understanding-convolution/#toc3

入力のチャネルが複数の場合は、フィルター(カーネル)のチャネルも入力のチャネルに合わせます。
その複数のチャネルがあるフィルター(カーネル)をいくつ用意するかということになります。

NumFilters — フィルターの数
正の整数
フィルターの数。正の整数として指定します。この数値は、入力の同じ領域に結合する畳み込み層のニューロンの数に対応します。このパラメーターは、畳み込み層の出力のチャネル (特徴マップ) の数を決定します。
(略)
NumChannels — 各フィルターのチャネルの数
'auto' (既定値) | 正の整数
各フィルターのチャネルの数。'auto' または正の整数として指定します。
このパラメーターは、常に畳み込み層への入力のチャネル数に等しくなります。たとえば、入力がカラーイメージの場合、入力のチャネルの数は 3 です。現在の層の前にある畳み込み層のフィルターの数が 16 の場合、現在の層のチャネルの数は 16 です。
(略)
たとえば、入力イメージが 32 x 32 x 3 のカラーイメージであるとします。8 個のフィルターを持つ畳み込み層で、フィルターサイズが 5 x 5 の場合、フィルターあたりの重みの数は 5 * 5 * 3 = 75、層のパラメーターの総数は (75 + 1) * 8 = 608 になります。
https://jp.mathworks.com/help/deeplearning/ref/nnet.cnn.layer.convolution2dlayer.html#mw_82d3333b-e37c-43db-a119-4ebd5120afa4

convolution2dLayerで指定する「フィルターの数」(numFilters)引数も、
「フィルターあたりの重みの数は 5 * 5 * 3」(3次元目がチャネル)と記載されているように、
入力のチャネル数分のチャネルがあるフィルターが、numFilters分あるということになると思います。

投稿2022/03/03 15:33