回答編集履歴
3
修正
test
CHANGED
@@ -6,6 +6,6 @@
|
|
6
6
|
|
7
7
|
|
8
8
|
|
9
|
-
もっとも、γ と βがscalarであれば、せいぜい2つのparametersしかないので、学習意味がない。
|
9
|
+
もっとも、γ と βがscalarであれば、せいぜい2つのparametersしかないので、γとβの学習意味がない。
|
10
10
|
|
11
11
|
それに、batch normalization処理は各本来のfeature mapの後ろに追加されるもので、mini-batchデータ毎に異なる学習変数とするのはNN構造的に不可能 ❗
|
2
修正
test
CHANGED
@@ -6,6 +6,6 @@
|
|
6
6
|
|
7
7
|
|
8
8
|
|
9
|
-
もっとも、γ と βがscalarであれば、せい
|
9
|
+
もっとも、γ と βがscalarであれば、せいぜい2つのparametersしかないので、学習意味がない。
|
10
10
|
|
11
11
|
それに、batch normalization処理は各本来のfeature mapの後ろに追加されるもので、mini-batchデータ毎に異なる学習変数とするのはNN構造的に不可能 ❗
|
1
追加
test
CHANGED
@@ -3,3 +3,9 @@
|
|
3
3
|
|
4
4
|
|
5
5
|
γ と βは異なるmini-batchの間で共用変数だが、他の学習parameterと同じ、mini-batch単位(/毎に)で更新されるので、異なるmini-batchの間通常数値が違う。
|
6
|
+
|
7
|
+
|
8
|
+
|
9
|
+
もっとも、γ と βがscalarであれば、せいせい2つのparametersになり、学習意味がない。
|
10
|
+
|
11
|
+
それに、batch normalization処理は各本来のfeature mapの後ろに追加されるもので、mini-batchデータ毎に異なる学習変数とするのはNN構造的に不可能 ❗
|