回答編集履歴

修正

2020/02/21 23:29

投稿

スコア45

answer CHANGED Viewed

@@ -2,5 +2,5 @@
 γ　と βは異なるmini-batchの間で共用変数だが、他の学習parameterと同じ、mini-batch単位(/毎に)で更新されるので、異なるmini-batchの間通常数値が違う。
-もっとも、γ　と βがscalarであれば、せいぜい２つのparametersしかないので、学習意味がない。
+もっとも、γ　と βがscalarであれば、せいぜい２つのparametersしかないので、γとβの学習意味がない。
 それに、batch normalization処理は各本来のfeature mapの後ろに追加されるもので、mini-batchデータ毎に異なる学習変数とするのはNN構造的に不可能 ❗

修正

2020/02/21 23:29

投稿

スコア45

answer CHANGED Viewed

@@ -2,5 +2,5 @@
 γ　と βは異なるmini-batchの間で共用変数だが、他の学習parameterと同じ、mini-batch単位(/毎に)で更新されるので、異なるmini-batchの間通常数値が違う。
-もっとも、γ　と βがscalarであれば、せいせい２つのparametersになり、学習意味がない。
+もっとも、γ　と βがscalarであれば、せいぜい２つのparametersしかないので、学習意味がない。
 それに、batch normalization処理は各本来のfeature mapの後ろに追加されるもので、mini-batchデータ毎に異なる学習変数とするのはNN構造的に不可能 ❗

追加

2020/02/21 23:28

投稿

スコア45

answer CHANGED Viewed

@@ -1,3 +1,6 @@
 学習係数　γ　と βは　feature map  X と同じ形状で element wiseで計算を行うのは分かった　❗
-γ　と βは異なるmini-batchの間で共用変数だが、他の学習parameterと同じ、mini-batch単位(/毎に)で更新されるので、異なるmini-batchの間通常数値が違う。
+γ　と βは異なるmini-batchの間で共用変数だが、他の学習parameterと同じ、mini-batch単位(/毎に)で更新されるので、異なるmini-batchの間通常数値が違う。
+もっとも、γ　と βがscalarであれば、せいせい２つのparametersになり、学習意味がない。
+それに、batch normalization処理は各本来のfeature mapの後ろに追加されるもので、mini-batchデータ毎に異なる学習変数とするのはNN構造的に不可能 ❗