PytorchのConv2Dのチャンネル削減に関して

PytorchのConv2Dのチャンネル削減の演算方法を教えて頂きたいです。

Pytorchの2次元畳み込み演算のConv2dの引数は以下です。
torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros')

ここで例えば、in_channels：1 out_channels:4の場合は異なるkernelを4つ用意して
計算することで、channelは4倍になるのは分かるのですが逆にin_channels：4 out_channels:1
の時はどのような演算でチャンネル数を削減しているのでしょうか？

宜しくお願いいたします。

行動規範の内容に同意します

回答2件

ベストアンサー

質問者様は、個々のm = in_channelsごとにn = out_channelsが（1:n関係で）対応付けられているような理解をされているのではないでしょうか？実態は逆であり、個々のout_channelsごとに全てのin_channelsが（m:1関係で）対応付けられて、畳込み後に全結合が行われています。ですので、out_channels=1であっても、理解は容易です。

全てのin_channelsではなく一部のin_channelsだけに限定して、特定のout_channelsに対応付けることは、groupsオプションを使うとある程度操作可能です。

参考: PyTorchのConv２dドキュメント
groups (int, optional) – Number of blocked connections from input channels to output channels. Default: 1

以上のことを、視覚的に理解できる素晴らしいサイトがあります。
Conv2d：最後にフォワードパスで何が起こるかを理解する

in_channels × out_channels の畳み込みフィルタが使われて、out_channelsごとに全てのin_channelsの畳み込み結果が全結合されている様子が、視覚的によくわかります。また、groupsオプションを使った際の動作も、視覚的にわかります。

投稿2021/03/30 23:04