回答編集履歴
3
修正
answer
CHANGED
@@ -2,5 +2,5 @@
|
|
2
2
|
|
3
3
|
γ と βは異なるmini-batchの間で共用変数だが、他の学習parameterと同じ、mini-batch単位(/毎に)で更新されるので、異なるmini-batchの間通常数値が違う。
|
4
4
|
|
5
|
-
もっとも、γ と βがscalarであれば、せいぜい2つのparametersしかないので、学習意味がない。
|
5
|
+
もっとも、γ と βがscalarであれば、せいぜい2つのparametersしかないので、γとβの学習意味がない。
|
6
6
|
それに、batch normalization処理は各本来のfeature mapの後ろに追加されるもので、mini-batchデータ毎に異なる学習変数とするのはNN構造的に不可能 ❗
|
2
修正
answer
CHANGED
@@ -2,5 +2,5 @@
|
|
2
2
|
|
3
3
|
γ と βは異なるmini-batchの間で共用変数だが、他の学習parameterと同じ、mini-batch単位(/毎に)で更新されるので、異なるmini-batchの間通常数値が違う。
|
4
4
|
|
5
|
-
もっとも、γ と βがscalarであれば、せい
|
5
|
+
もっとも、γ と βがscalarであれば、せいぜい2つのparametersしかないので、学習意味がない。
|
6
6
|
それに、batch normalization処理は各本来のfeature mapの後ろに追加されるもので、mini-batchデータ毎に異なる学習変数とするのはNN構造的に不可能 ❗
|
1
追加
answer
CHANGED
@@ -1,3 +1,6 @@
|
|
1
1
|
学習係数 γ と βは feature map X と同じ形状で element wiseで計算を行うのは分かった ❗
|
2
2
|
|
3
|
-
γ と βは異なるmini-batchの間で共用変数だが、他の学習parameterと同じ、mini-batch単位(/毎に)で更新されるので、異なるmini-batchの間通常数値が違う。
|
3
|
+
γ と βは異なるmini-batchの間で共用変数だが、他の学習parameterと同じ、mini-batch単位(/毎に)で更新されるので、異なるmini-batchの間通常数値が違う。
|
4
|
+
|
5
|
+
もっとも、γ と βがscalarであれば、せいせい2つのparametersになり、学習意味がない。
|
6
|
+
それに、batch normalization処理は各本来のfeature mapの後ろに追加されるもので、mini-batchデータ毎に異なる学習変数とするのはNN構造的に不可能 ❗
|