teratail header banner
teratail header banner
質問するログイン新規登録

回答編集履歴

3

修正

2020/02/21 23:29

投稿

OOZAWA
OOZAWA

スコア45

answer CHANGED
@@ -2,5 +2,5 @@
2
2
 
3
3
  γ と βは異なるmini-batchの間で共用変数だが、他の学習parameterと同じ、mini-batch単位(/毎に)で更新されるので、異なるmini-batchの間通常数値が違う。
4
4
 
5
- もっとも、γ と βがscalarであれば、せいぜい2つのparametersしかないので、学習意味がない。
5
+ もっとも、γ と βがscalarであれば、せいぜい2つのparametersしかないので、γとβの学習意味がない。
6
6
  それに、batch normalization処理は各本来のfeature mapの後ろに追加されるもので、mini-batchデータ毎に異なる学習変数とするのはNN構造的に不可能 ❗

2

修正

2020/02/21 23:29

投稿

OOZAWA
OOZAWA

スコア45

answer CHANGED
@@ -2,5 +2,5 @@
2
2
 
3
3
  γ と βは異なるmini-batchの間で共用変数だが、他の学習parameterと同じ、mini-batch単位(/毎に)で更新されるので、異なるmini-batchの間通常数値が違う。
4
4
 
5
- もっとも、γ と βがscalarであれば、せいい2つのparameters、学習意味がない。
5
+ もっとも、γ と βがscalarであれば、せいい2つのparametersしかいので、学習意味がない。
6
6
  それに、batch normalization処理は各本来のfeature mapの後ろに追加されるもので、mini-batchデータ毎に異なる学習変数とするのはNN構造的に不可能 ❗

1

追加

2020/02/21 23:28

投稿

OOZAWA
OOZAWA

スコア45

answer CHANGED
@@ -1,3 +1,6 @@
1
1
  学習係数 γ と βは feature map X と同じ形状で element wiseで計算を行うのは分かった ❗
2
2
 
3
- γ と βは異なるmini-batchの間で共用変数だが、他の学習parameterと同じ、mini-batch単位(/毎に)で更新されるので、異なるmini-batchの間通常数値が違う。
3
+ γ と βは異なるmini-batchの間で共用変数だが、他の学習parameterと同じ、mini-batch単位(/毎に)で更新されるので、異なるmini-batchの間通常数値が違う。
4
+
5
+ もっとも、γ と βがscalarであれば、せいせい2つのparametersになり、学習意味がない。
6
+ それに、batch normalization処理は各本来のfeature mapの後ろに追加されるもので、mini-batchデータ毎に異なる学習変数とするのはNN構造的に不可能 ❗