回答編集履歴

3

修正

2020/02/21 23:29

投稿

OOZAWA
OOZAWA

スコア45

test CHANGED
@@ -6,6 +6,6 @@
6
6
 
7
7
 
8
8
 
9
- もっとも、γ と βがscalarであれば、せいぜい2つのparametersしかないので、学習意味がない。
9
+ もっとも、γ と βがscalarであれば、せいぜい2つのparametersしかないので、γとβの学習意味がない。
10
10
 
11
11
  それに、batch normalization処理は各本来のfeature mapの後ろに追加されるもので、mini-batchデータ毎に異なる学習変数とするのはNN構造的に不可能 ❗

2

修正

2020/02/21 23:29

投稿

OOZAWA
OOZAWA

スコア45

test CHANGED
@@ -6,6 +6,6 @@
6
6
 
7
7
 
8
8
 
9
- もっとも、γ と βがscalarであれば、せいい2つのparameters、学習意味がない。
9
+ もっとも、γ と βがscalarであれば、せいい2つのparametersしかいので、学習意味がない。
10
10
 
11
11
  それに、batch normalization処理は各本来のfeature mapの後ろに追加されるもので、mini-batchデータ毎に異なる学習変数とするのはNN構造的に不可能 ❗

1

追加

2020/02/21 23:28

投稿

OOZAWA
OOZAWA

スコア45

test CHANGED
@@ -3,3 +3,9 @@
3
3
 
4
4
 
5
5
  γ と βは異なるmini-batchの間で共用変数だが、他の学習parameterと同じ、mini-batch単位(/毎に)で更新されるので、異なるmini-batchの間通常数値が違う。
6
+
7
+
8
+
9
+ もっとも、γ と βがscalarであれば、せいせい2つのparametersになり、学習意味がない。
10
+
11
+ それに、batch normalization処理は各本来のfeature mapの後ろに追加されるもので、mini-batchデータ毎に異なる学習変数とするのはNN構造的に不可能 ❗