Residual Networkの基本の基本に関する質問

Residual Networkのもっとも基本的な処理方法が論文をいくら読んでも分からなかったので、お助けください！
Residual Network block/Unit 図の中のXやH(X),F(X)はそれぞれにscalar量ですか、それとも一枚のfeature mapでしょうか。
あるいは複数のfeature mapでしょうか。
自分の知識からしますと、convolutional networkの各層はいつも複数枚のfeature mapを入力とし、複数枚のfeature mapを出力としますので、
上記Xは複数のfeature mapより構成されているmap stack(深さはchannel数という)かなと思いますが、
もしそうであれば、F(X) + X はどうやって計算するのでしょうか。

行動規範の内容に同意します

回答1件

ベストアンサー

一般的にネットワーク図の中のXなどの太文字入力変数はscalar量ではなくtensor量として書かれています。
同様にF(X)などの関数の出力の表記も同様にtensor量になっています。

画像データを取り扱うNetworkだと入力のXは複数のfeature map（3階のtensor）であり、F(X)も複数のfeature mapであります。
feature mapが一枚か複数枚かどうかは、表記上では気にすることではないですが基本は複数枚です。

特にResidual BlockではXとF(X)の画像サイズとチャンネル数がそれぞれ同一になるようにF(X)が構成されており、そうすることでXとF(X)の要素数が一致し、X + F(X)の計算（要素ごとの足し算）が実行できます。

投稿2020/01/06 00:18

tkymtmt

総合スコア143

OOZAWA

2020/01/06 21:08 編集

凄い分かりやすいご説明ですね！　本当に有難うございます。例えば、Xが[ a,b,c,d ]という４枚のfeature mapsであり、F(X) が [E,F,G,H]の４枚のfeature mapsであるとします。 X+F(X) = [ a+E, b+F, c+G, d+H ] になりますね？もしそうであれば、疑問として、入力 map stack [ a,b,c,d ]中の各map と出力map stack [ E,F,G,H ]中の各mapとの間にそもそも対応関係がないのに、どうしてa+E, b+F, c+G, d+H のようにペアリングされるのでしょうか。例えば、a+H, b+G, c+F, d+E　のような足し合わせもありのでは？そうしますと、NNの訓練結果が違ってくるでしょう。またご説明いただければ幸いです。

tkymtmt

2020/01/07 00:33

おっしゃる通りX+F(X) = [ a+E, b+F, c+G, d+H ] になります。後半の疑問点について説明します。 [ a,b,c,d ]と [ E,F,G,H ]の足し算において数ある組み合わせの中でa+E, b+F, c+G, d+H のようなペアリングを行うことは問題ありません。なぜなら、F(X)は学習パラメータを持つので、学習の過程においてF(X)の出力であるE,F,G,Hのそれぞれが、a,b,c,dと結合するのにふさわしい情報をもったものに変わっていくことが期待されるからです。 a+H, b+G, c+F, d+Eのようなペアリングも可能であり、上の場合と同じ理由でa+E, b+F, c+G, d+Hの時と学習結果に特に差はないと思います。しかし、多くの機械学習ライブラリではtensor量はnumpy配列のようになっており、複数要素の足し算は要素の順番ごとに実行されるのでa+H, b+G, c+F, d+Eのようなペアリングよりもa+E, b+F, c+G, d+H のペアリングの方が実装が簡単になります。上記の理由からa+E, b+F, c+G, d+H のようにペアリングすることで十分かと思われます。長くなってすいません。

OOZAWA

2020/01/07 01:54

スッキリしました！再度お礼を申し上げます。

行動規範の内容に同意します