質問編集履歴
31
追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -24,7 +24,7 @@
|
|
24
24
|
|
25
25
|
**ミニバッチ学習法** と **バッチ学習法** なら、**batch normalization**を実施可能。
|
26
26
|
|
27
|
-
ただし、
|
27
|
+
ただし、(R.Shigemori氏より)
|
28
28
|
|
29
29
|
> オンライン学習の不安定性は欠点と捉えられていましたが、局所解回避しやすいという利点でもあります。さらにいうとこの不安定さはひとつひとつで見るとその通りなのですが、全体で見ると安定した分布を描くので、与えられたデータを頭から順番に計算するよりランダムに選択して計算する処理を繰り返したほうがうまくいくというアイデアがSDGとして結実していると考えるべきでしょう。
|
30
30
|
|
30
追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -23,6 +23,14 @@
|
|
23
23
|
「確率的勾配降下法SGD」は一つの訓練データ毎にパラメータを更新するので**『バッチ正規化』**がそもそも対象外。 これは「確率的勾配降下法SGD」にとって非常に不利。
|
24
24
|
|
25
25
|
**ミニバッチ学習法** と **バッチ学習法** なら、**batch normalization**を実施可能。
|
26
|
+
|
27
|
+
ただし、
|
28
|
+
|
29
|
+
> オンライン学習の不安定性は欠点と捉えられていましたが、局所解回避しやすいという利点でもあります。さらにいうとこの不安定さはひとつひとつで見るとその通りなのですが、全体で見ると安定した分布を描くので、与えられたデータを頭から順番に計算するよりランダムに選択して計算する処理を繰り返したほうがうまくいくというアイデアがSDGとして結実していると考えるべきでしょう。
|
30
|
+
|
31
|
+
> ミニバッチ学習ですが、オンライン学習とバッチ学習の利点をうまく取り入れたものとして、メジャー化しています。
|
32
|
+
|
33
|
+
|
26
34
|
|
27
35
|
★★★★★★★★★★
|
28
36
|
|
29
追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -78,7 +78,7 @@
|
|
78
78
|
|
79
79
|
『基本的には、**勾配消失・爆発を防ぐ**ための手法である』という説があるが、そのメカニズムを調べる分からず、想像に、layer間の入力データの期待値とスケールがまちまちなので、その微分値のサイズもまちまち、スケールの大きいデータに生成される微分値も大きくて、back-propgationプロセスにおいて大きな影響力を持つに対して、入力データのスケールが小さいlayerがback-propgationプロセスにほとんど影響なし(勾配消失)----不公平!
|
80
80
|
|
81
|
-
上記データの極端性について**activition関数によってある程度和らげるものの、layer間全連結(Full Connection FC)というAffine変換の結果がいつもReLU関数の平坦域に存在すれば、微分値・勾配が依然0になりがち**。 もっと
|
81
|
+
上記データの極端性について**activition関数によってある程度和らげるものの、layer間全連結(Full Connection FC)というAffine変換の結果がいつもReLU関数の平坦域に存在すれば、微分値・勾配が依然0になりがち**。 もっと効果的な是正方法として、**batch normalization**が提案された。**batch normalization**は各layer毎に入力データの正規化("白化"+rescaling)を行う。
|
82
82
|
|
83
83
|
具体的な効果として、
|
84
84
|
|
28
追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -90,4 +90,6 @@
|
|
90
90
|
|
91
91
|
④ **batch normalization**によって **~~L2正規化~~ L2正則化** や **dropout**が不要になるか必要性が下がるため、過学習を和らげる働きがあると推測。
|
92
92
|
|
93
|
+
**L2正則化**項をloss関数に加える事によってNNパラメータの大きさが制限され、小さければ一部のニューロが存在しないことに等価的で、**dropout**の効果と同じ-----これでNNの過学習を回避できる。
|
94
|
+
|
93
95
|
※ 『Batch Normalization と Dropout は併用しない方が良い』という話がある。
|
27
追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -78,7 +78,7 @@
|
|
78
78
|
|
79
79
|
『基本的には、**勾配消失・爆発を防ぐ**ための手法である』という説があるが、そのメカニズムを調べる分からず、想像に、layer間の入力データの期待値とスケールがまちまちなので、その微分値のサイズもまちまち、スケールの大きいデータに生成される微分値も大きくて、back-propgationプロセスにおいて大きな影響力を持つに対して、入力データのスケールが小さいlayerがback-propgationプロセスにほとんど影響なし(勾配消失)----不公平!
|
80
80
|
|
81
|
-
上記データの極端性についてactivition関数によってある程度和らげるものの、もっと有効的な是正方法として、**batch normalization**が提案された。**batch normalization**は各layer毎に入力データの正規化("白化"+rescaling)を行う。
|
81
|
+
上記データの極端性について**activition関数によってある程度和らげるものの、layer間全連結(Full Connection FC)というAffine変換の結果がいつもReLU関数の平坦域に存在すれば、微分値・勾配が依然0になりがち**。 もっと有効的な是正方法として、**batch normalization**が提案された。**batch normalization**は各layer毎に入力データの正規化("白化"+rescaling)を行う。
|
82
82
|
|
83
83
|
具体的な効果として、
|
84
84
|
|
26
追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -76,7 +76,9 @@
|
|
76
76
|
|
77
77
|
【働き原理】**内部の共変量シフトを減少させる(Reduce Internal Covariate Shift)**
|
78
78
|
|
79
|
-
『基本的には、**勾配消失・爆発を防ぐ**ための手法である』という説があるが、そのメカニズムを調べる分からず、想像に、layer間の入力データの期待値とスケールがまちまちなので、その微分値のサイズもまちまち、スケールの大きいデータに生成される微分値も大きくて、back-propgationプロセスにおいて大きな影響力を持つに対して、入力データのスケールが小さいlayerがback-propgationプロセスにほとんど影響なし(勾配消失)----不公平
|
79
|
+
『基本的には、**勾配消失・爆発を防ぐ**ための手法である』という説があるが、そのメカニズムを調べる分からず、想像に、layer間の入力データの期待値とスケールがまちまちなので、その微分値のサイズもまちまち、スケールの大きいデータに生成される微分値も大きくて、back-propgationプロセスにおいて大きな影響力を持つに対して、入力データのスケールが小さいlayerがback-propgationプロセスにほとんど影響なし(勾配消失)----不公平!
|
80
|
+
|
81
|
+
上記データの極端性についてactivition関数によってある程度和らげるものの、もっと有効的な是正方法として、**batch normalization**が提案された。**batch normalization**は各layer毎に入力データの正規化("白化"+rescaling)を行う。
|
80
82
|
|
81
83
|
具体的な効果として、
|
82
84
|
|
@@ -87,3 +89,5 @@
|
|
87
89
|
③ NNの初期値の影響を抑える;
|
88
90
|
|
89
91
|
④ **batch normalization**によって **~~L2正規化~~ L2正則化** や **dropout**が不要になるか必要性が下がるため、過学習を和らげる働きがあると推測。
|
92
|
+
|
93
|
+
※ 『Batch Normalization と Dropout は併用しない方が良い』という話がある。
|
25
追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -76,9 +76,9 @@
|
|
76
76
|
|
77
77
|
【働き原理】**内部の共変量シフトを減少させる(Reduce Internal Covariate Shift)**
|
78
78
|
|
79
|
-
『基本的には、**勾配消失・爆発を防ぐ**ための手法である』という説があるが。
|
79
|
+
『基本的には、**勾配消失・爆発を防ぐ**ための手法である』という説があるが、そのメカニズムを調べる分からず、想像に、layer間の入力データの期待値とスケールがまちまちなので、その微分値のサイズもまちまち、スケールの大きいデータに生成される微分値も大きくて、back-propgationプロセスにおいて大きな影響力を持つに対して、入力データのスケールが小さいlayerがback-propgationプロセスにほとんど影響なし(勾配消失)----不公平。これを是正するために、**batch normalization**を利用するようになった? -----**batch normalization**は各layer毎に入力データの正規化("白化"+rescaling)を行うのだから。
|
80
80
|
|
81
|
-
具体
|
81
|
+
具体的な効果として、
|
82
82
|
|
83
83
|
① 学習レートを大きくすることが可能にして、訓練速度アップ;
|
84
84
|
|
24
修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -20,7 +20,7 @@
|
|
20
20
|
|
21
21
|
★★★★★★★★★★
|
22
22
|
|
23
|
-
「確率的勾配降下法SGD」は一つの訓練データ毎にパラメータを更新するので**『バッチ正規化』
|
23
|
+
「確率的勾配降下法SGD」は一つの訓練データ毎にパラメータを更新するので**『バッチ正規化』**がそもそも対象外。 これは「確率的勾配降下法SGD」にとって非常に不利。
|
24
24
|
|
25
25
|
**ミニバッチ学習法** と **バッチ学習法** なら、**batch normalization**を実施可能。
|
26
26
|
|
23
修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -6,7 +6,7 @@
|
|
6
6
|
|
7
7
|
|
8
8
|
|
9
|
-
Q2 :「確率的勾配降下法SGD」を使う場合、『バッチ正規化』という訓練精度を上げるのにとても重要な方法とされるテクニックが利用できなくなる(無意味になる)のではないでしょうか。
|
9
|
+
Q2 :「確率的勾配降下法SGD」を使う場合、**『バッチ正規化』(batch normalization)**という訓練精度を上げるのにとても重要な方法とされるテクニックが利用できなくなる(無意味になる)のではないでしょうか。
|
10
10
|
|
11
11
|
|
12
12
|
|
@@ -50,7 +50,7 @@
|
|
50
50
|
|
51
51
|
> 2.共役勾配法の場合、loss関数(目標関数)は二次形である必要:
|
52
52
|
|
53
|
-
> f(X) = X'AX + bX A: matrix; X:自動変数vector
|
53
|
+
> f(X) = X'AX + bX A: matrix; X: 自動変数vector
|
54
54
|
|
55
55
|
|
56
56
|
|
22
修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -42,7 +42,7 @@
|
|
42
42
|
|
43
43
|
降下法系のoptimizer算法からすると、算法自身が**一回の自動変数の更新に利用するサンプル数と関係なく**、一回の更新に一つのサンプルを使うか、それとも複数のサンプルを使うかはloss関数の定義による。
|
44
44
|
|
45
|
-
一回の更新に一つのサンプルを使うのは自然で、オリジナルだと思われる。これを基本にして、**パフォーマンス的な配慮を入れて、複数のサンプル(batch)に関する訓練lossの平均値をbatchのloss関数とする**。
|
45
|
+
一回の更新に一つのサンプルを使うのは自然で、オリジナルだと思われる。これを基本にして、**パフォーマンス的な配慮を入れて、複数のサンプル(batch / mini batch)に関する訓練lossの平均値をbatch / mini batch のloss関数とする**。
|
46
46
|
|
47
47
|
ただ、
|
48
48
|
|
@@ -50,7 +50,7 @@
|
|
50
50
|
|
51
51
|
> 2.共役勾配法の場合、loss関数(目標関数)は二次形である必要:
|
52
52
|
|
53
|
-
> f(X) = X'AX + bX A: matrix; X:自動変数vector
|
53
|
+
> f(X) = X'AX + bX A: matrix; X:自動変数vector
|
54
54
|
|
55
55
|
|
56
56
|
|
21
修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -2,7 +2,7 @@
|
|
2
2
|
|
3
3
|
ことろが、どうしてその後、確率的勾配降下法(stochastic gradient descent, SGD)が有名になって、良く使われることになったのでしょうか。
|
4
4
|
|
5
|
-
Q1 : 「確率的勾配降下法SGD」って、一つの学習データを単位に学習するのですね。これは最初の学習法(
|
5
|
+
Q1 : 「確率的勾配降下法SGD」って、一つの学習データを単位に学習するのですね。これは最初の学習法(安定性が悪い)に戻るのではと思いますが、誤解でしょうか。
|
6
6
|
|
7
7
|
|
8
8
|
|
20
修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -42,7 +42,7 @@
|
|
42
42
|
|
43
43
|
降下法系のoptimizer算法からすると、算法自身が**一回の自動変数の更新に利用するサンプル数と関係なく**、一回の更新に一つのサンプルを使うか、それとも複数のサンプルを使うかはloss関数の定義による。
|
44
44
|
|
45
|
-
一回の更新に一つのサンプルを使うのは自然で、オリジナルだと思われる。これを基本にして、**パフォーマンス的な配慮を入れて、複数のサンプルに関する訓練lossの平均値
|
45
|
+
一回の更新に一つのサンプルを使うのは自然で、オリジナルだと思われる。これを基本にして、**パフォーマンス的な配慮を入れて、複数のサンプル(batch)に関する訓練lossの平均値をbatchのloss関数とする**。
|
46
46
|
|
47
47
|
ただ、
|
48
48
|
|
19
修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -20,7 +20,7 @@
|
|
20
20
|
|
21
21
|
★★★★★★★★★★
|
22
22
|
|
23
|
-
「確率的勾配降下法SGD」は一つの訓練データ毎にパラメータを更新するので**『バッチ正規化』(batch normalization)**が
|
23
|
+
「確率的勾配降下法SGD」は一つの訓練データ毎にパラメータを更新するので**『バッチ正規化』(batch normalization)**がそもそも対象外。 これは「確率的勾配降下法SGD」にとって非常に不利。
|
24
24
|
|
25
25
|
**ミニバッチ学習法** と **バッチ学習法** なら、**batch normalization**を実施可能。
|
26
26
|
|
@@ -50,7 +50,7 @@
|
|
50
50
|
|
51
51
|
> 2.共役勾配法の場合、loss関数(目標関数)は二次形である必要:
|
52
52
|
|
53
|
-
> f(X) = A
|
53
|
+
> f(X) = X'AX + bX A: matrix; X:自動変数vector
|
54
54
|
|
55
55
|
|
56
56
|
|
18
修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -22,7 +22,7 @@
|
|
22
22
|
|
23
23
|
「確率的勾配降下法SGD」は一つの訓練データ毎にパラメータを更新するので**『バッチ正規化』(batch normalization)**ができない。 これは「確率的勾配降下法SGD」にとって非常に不利。
|
24
24
|
|
25
|
-
**ミニバッチ学習法** と **バッチ学習法** なら、**batch normalization**を実施可能
|
25
|
+
**ミニバッチ学習法** と **バッチ学習法** なら、**batch normalization**を実施可能。
|
26
26
|
|
27
27
|
★★★★★★★★★★
|
28
28
|
|
@@ -36,13 +36,7 @@
|
|
36
36
|
|
37
37
|
★★★★★★★★★★
|
38
38
|
|
39
|
-
**バッチ学習法**と**オンライン学習法**とはどっちが先に発明されたかについて、
|
39
|
+
**バッチ学習法**と**オンライン学習法**とはどっちが先に発明されたかについて、 算法自身からは分からない。
|
40
|
-
|
41
|
-
算法自身からは分からない。
|
42
|
-
|
43
|
-
|
44
|
-
|
45
|
-
|
46
40
|
|
47
41
|
|
48
42
|
|
@@ -68,11 +62,9 @@
|
|
68
62
|
|
69
63
|
|
70
64
|
|
71
|
-
英語版のWikipedia: Stochastic gradient descent
|
65
|
+
英語版のWikipedia: **Stochastic gradient descent**
|
72
66
|
|
73
67
|
Stochastic gradient descent (often shortened to SGD), also known as **incremental gradient descent**, is an **iterative method **for optimizing a **differentiable objective function**, a stochastic **approximation of gradient **descent optimization. It is called **stochastic** because samples are **__selected randomly (or shuffled) instead of as a single group __**(as in standard gradient descent) or in the order they appear in the training set.
|
74
|
-
|
75
|
-
|
76
68
|
|
77
69
|
|
78
70
|
|
17
修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -20,6 +20,14 @@
|
|
20
20
|
|
21
21
|
★★★★★★★★★★
|
22
22
|
|
23
|
+
「確率的勾配降下法SGD」は一つの訓練データ毎にパラメータを更新するので**『バッチ正規化』(batch normalization)**ができない。 これは「確率的勾配降下法SGD」にとって非常に不利。
|
24
|
+
|
25
|
+
**ミニバッチ学習法** と **バッチ学習法** なら、**batch normalization**を実施可能
|
26
|
+
|
27
|
+
★★★★★★★★★★
|
28
|
+
|
29
|
+
|
30
|
+
|
23
31
|
**ミニバッチ学習法** は **バッチ学習法** と **オンライン学習法**を折衷した方法である。
|
24
32
|
|
25
33
|
3者の間に数学的な差はなく、loss関数(目標関数)の定義に加味したり、サンプリング順番を工夫したりする程度の差しなかい。
|
@@ -30,7 +38,7 @@
|
|
30
38
|
|
31
39
|
**バッチ学習法**と**オンライン学習法**とはどっちが先に発明されたかについて、
|
32
40
|
|
33
|
-
算法自身からは分からない
|
41
|
+
算法自身からは分からない。
|
34
42
|
|
35
43
|
|
36
44
|
|
@@ -38,7 +46,7 @@
|
|
38
46
|
|
39
47
|
|
40
48
|
|
41
|
-
降下法系のoptimizer算法からすると、算法自身が**一回の自動変数の更新に利用するサンプル数と関係なく**、一回の更新に一つのサンプルを使うか、複数使うか
|
49
|
+
降下法系のoptimizer算法からすると、算法自身が**一回の自動変数の更新に利用するサンプル数と関係なく**、一回の更新に一つのサンプルを使うか、それとも複数のサンプルを使うかはloss関数の定義による。
|
42
50
|
|
43
51
|
一回の更新に一つのサンプルを使うのは自然で、オリジナルだと思われる。これを基本にして、**パフォーマンス的な配慮を入れて、複数のサンプルに関する訓練lossの平均値でloss関数を計算する**。
|
44
52
|
|
16
修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -86,4 +86,4 @@
|
|
86
86
|
|
87
87
|
③ NNの初期値の影響を抑える;
|
88
88
|
|
89
|
-
④ **batch normalization**によって **L2正規化** や **dropout**が不要になるため、過学習を和らげる働きがあると推測。
|
89
|
+
④ **batch normalization**によって **~~L2正規化~~ L2正則化** や **dropout**が不要になるか必要性が下がるため、過学習を和らげる働きがあると推測。
|
15
追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -74,8 +74,16 @@
|
|
74
74
|
|
75
75
|
「**batch normalization**」は非常に重要なテクニック:
|
76
76
|
|
77
|
+
【働き原理】**内部の共変量シフトを減少させる(Reduce Internal Covariate Shift)**
|
78
|
+
|
79
|
+
『基本的には、**勾配消失・爆発を防ぐ**ための手法である』という説があるが。
|
80
|
+
|
81
|
+
具体に
|
82
|
+
|
77
83
|
① 学習レートを大きくすることが可能にして、訓練速度アップ;
|
78
84
|
|
79
|
-
②
|
85
|
+
② ネットワークの学習プロセスを全体的に安定化させる;
|
80
86
|
|
87
|
+
③ NNの初期値の影響を抑える;
|
88
|
+
|
81
|
-
|
89
|
+
④ **batch normalization**によって **L2正規化** や **dropout**が不要になるため、過学習を和らげる働きがあると推測。
|
14
追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -78,4 +78,4 @@
|
|
78
78
|
|
79
79
|
② NNの初期値の影響を抑える;
|
80
80
|
|
81
|
-
③
|
81
|
+
③ **batch normalization**によって **L2正規化** や **drop out**が不要になるため、過学習を和らげる働きがあると推測。
|
13
追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -72,10 +72,10 @@
|
|
72
72
|
|
73
73
|
★★★★★★★★★★
|
74
74
|
|
75
|
-
「**batch normalization**」非常に重要なテクニック:
|
75
|
+
「**batch normalization**」は非常に重要なテクニック:
|
76
76
|
|
77
77
|
① 学習レートを大きくすることが可能にして、訓練速度アップ;
|
78
78
|
|
79
79
|
② NNの初期値の影響を抑える;
|
80
80
|
|
81
|
-
③ L2正規化やdrop outを不要にする可能だから、過学習を和らげる働きがあると推測。
|
81
|
+
③ 「**batch normalization**」でL2正規化やdrop outを不要にする可能だから、過学習を和らげる働きがあると推測。
|
12
訂正
test
CHANGED
File without changes
|
test
CHANGED
@@ -40,7 +40,7 @@
|
|
40
40
|
|
41
41
|
降下法系のoptimizer算法からすると、算法自身が**一回の自動変数の更新に利用するサンプル数と関係なく**、一回の更新に一つのサンプルを使うか、複数使うかに従うloss関数の定義による。
|
42
42
|
|
43
|
-
一回の更新に一つのサンプルを使うのは自然で、オリジナルだと思われる。これを基本にして、**パフォーマンス的な配慮を入れて、複数のサンプルに関する訓練
|
43
|
+
一回の更新に一つのサンプルを使うのは自然で、オリジナルだと思われる。これを基本にして、**パフォーマンス的な配慮を入れて、複数のサンプルに関する訓練lossの平均値でloss関数を計算する**。
|
44
44
|
|
45
45
|
ただ、
|
46
46
|
|
11
追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -22,7 +22,7 @@
|
|
22
22
|
|
23
23
|
**ミニバッチ学習法** は **バッチ学習法** と **オンライン学習法**を折衷した方法である。
|
24
24
|
|
25
|
-
3者の間に数学的な差はなく、loss関数の定義に加味したり、サンプリング順番を工夫したりする程度の差しなかい。
|
25
|
+
3者の間に数学的な差はなく、loss関数(目標関数)の定義に加味したり、サンプリング順番を工夫したりする程度の差しなかい。
|
26
26
|
|
27
27
|
|
28
28
|
|
@@ -34,13 +34,21 @@
|
|
34
34
|
|
35
35
|
|
36
36
|
|
37
|
-
一回の更新に一つのサンプルを使うか、複数使うかに従うloss関数の定義による。
|
38
|
-
|
39
|
-
(ただ、loss関数がNNのweightに微分可能でなければならない)
|
40
37
|
|
41
38
|
|
42
39
|
|
40
|
+
|
41
|
+
降下法系のoptimizer算法からすると、算法自身が**一回の自動変数の更新に利用するサンプル数と関係なく**、一回の更新に一つのサンプルを使うか、複数使うかに従うloss関数の定義による。
|
42
|
+
|
43
|
-
|
43
|
+
一回の更新に一つのサンプルを使うのは自然で、オリジナルだと思われる。これを基本にして、**パフォーマンス的な配慮を入れて、複数のサンプルに関する訓練誤差の平均値でloss関数を計算する**。
|
44
|
+
|
45
|
+
ただ、
|
46
|
+
|
47
|
+
> 1.勾配を利用する以上、loss関数が自動変数(NNのweight)に微分可能でなければならない;
|
48
|
+
|
49
|
+
> 2.共役勾配法の場合、loss関数(目標関数)は二次形である必要:
|
50
|
+
|
51
|
+
> f(X) = A'XA + bX
|
44
52
|
|
45
53
|
|
46
54
|
|
10
訂正
test
CHANGED
File without changes
|
test
CHANGED
@@ -40,7 +40,7 @@
|
|
40
40
|
|
41
41
|
|
42
42
|
|
43
|
-
降下法系のoptimizer算法からすると、算法自身が**一回の自動変数の更新に利用するサンプル数と関係なく**、寧ろ、一回の更新に一つのサンプルを使うのは自然で、オリジナルだと思われる。これを基本にして、**パフォーマンス的な配慮を入れて、
|
43
|
+
降下法系のoptimizer算法からすると、算法自身が**一回の自動変数の更新に利用するサンプル数と関係なく**、寧ろ、一回の更新に一つのサンプルを使うのは自然で、オリジナルだと思われる。これを基本にして、**パフォーマンス的な配慮を入れて、複数のサンプルに関する訓練誤差の平均値でloss関数を計算する**。
|
44
44
|
|
45
45
|
|
46
46
|
|
9
追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -32,7 +32,7 @@
|
|
32
32
|
|
33
33
|
算法自身からは分からないと思う。
|
34
34
|
|
35
|
-
|
35
|
+
|
36
36
|
|
37
37
|
一回の更新に一つのサンプルを使うか、複数使うかに従うloss関数の定義による。
|
38
38
|
|
@@ -40,7 +40,15 @@
|
|
40
40
|
|
41
41
|
|
42
42
|
|
43
|
+
降下法系のoptimizer算法からすると、算法自身が**一回の自動変数の更新に利用するサンプル数と関係なく**、寧ろ、一回の更新に一つのサンプルを使うのは自然で、オリジナルだと思われる。これを基本にして、**パフォーマンス的な配慮を入れて、loss関数に複数のサンプルに関する訓練誤差の平均値でloss関数を計算する**。
|
44
|
+
|
45
|
+
|
46
|
+
|
43
47
|
日本語版のWikipedia:確率的勾配降下法は『バッチ学習である最急降下法をオンライン学習に改良した物。』
|
48
|
+
|
49
|
+
**__【注】最急降下法 = 勾配降下法( Gradient descent, Steepest descent)__**
|
50
|
+
|
51
|
+
最急降下法をオンライン学習に改良した物を確率的勾配降下法と呼ぶ。
|
44
52
|
|
45
53
|
|
46
54
|
|
8
追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -44,6 +44,14 @@
|
|
44
44
|
|
45
45
|
|
46
46
|
|
47
|
+
英語版のWikipedia: Stochastic gradient descent
|
48
|
+
|
49
|
+
Stochastic gradient descent (often shortened to SGD), also known as **incremental gradient descent**, is an **iterative method **for optimizing a **differentiable objective function**, a stochastic **approximation of gradient **descent optimization. It is called **stochastic** because samples are **__selected randomly (or shuffled) instead of as a single group __**(as in standard gradient descent) or in the order they appear in the training set.
|
50
|
+
|
51
|
+
|
52
|
+
|
53
|
+
|
54
|
+
|
47
55
|
|
48
56
|
|
49
57
|
★★★★★★★★★★
|
7
Zxczxc
test
CHANGED
File without changes
|
test
CHANGED
@@ -10,9 +10,13 @@
|
|
10
10
|
|
11
11
|
|
12
12
|
|
13
|
+
ご存知の方説明お願いします。
|
14
|
+
|
15
|
+
|
16
|
+
|
13
17
|
*************************************************
|
14
18
|
|
15
|
-
|
19
|
+
【結論】
|
16
20
|
|
17
21
|
★★★★★★★★★★
|
18
22
|
|
6
xczx
test
CHANGED
File without changes
|
test
CHANGED
@@ -16,7 +16,7 @@
|
|
16
16
|
|
17
17
|
★★★★★★★★★★
|
18
18
|
|
19
|
-
**ミニバッチ学習法**は**バッチ学習法**と**オンライン学習法**を折衷した方法である。
|
19
|
+
**ミニバッチ学習法** は **バッチ学習法** と **オンライン学習法**を折衷した方法である。
|
20
20
|
|
21
21
|
3者の間に数学的な差はなく、loss関数の定義に加味したり、サンプリング順番を工夫したりする程度の差しなかい。
|
22
22
|
|
@@ -36,7 +36,9 @@
|
|
36
36
|
|
37
37
|
|
38
38
|
|
39
|
-
日本語版のWikipediaで
|
39
|
+
日本語版のWikipedia:確率的勾配降下法は『バッチ学習である最急降下法をオンライン学習に改良した物。』
|
40
|
+
|
41
|
+
|
40
42
|
|
41
43
|
|
42
44
|
|
5
asdasd
test
CHANGED
File without changes
|
test
CHANGED
@@ -16,7 +16,7 @@
|
|
16
16
|
|
17
17
|
★★★★★★★★★★
|
18
18
|
|
19
|
-
**ミニバッチ学習法****
|
19
|
+
**ミニバッチ学習法**は**バッチ学習法**と**オンライン学習法**を折衷した方法である。
|
20
20
|
|
21
21
|
3者の間に数学的な差はなく、loss関数の定義に加味したり、サンプリング順番を工夫したりする程度の差しなかい。
|
22
22
|
|
4
修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -10,17 +10,13 @@
|
|
10
10
|
|
11
11
|
|
12
12
|
|
13
|
-
|
13
|
+
*************************************************
|
14
14
|
|
15
15
|
ご存知の方説明お願いします。
|
16
16
|
|
17
|
-
********************************************
|
18
|
-
|
19
|
-
自分のこれまでの結論:
|
20
|
-
|
21
17
|
★★★★★★★★★★
|
22
18
|
|
23
|
-
ミニバッチ学習法は
|
19
|
+
**ミニバッチ学習法****はバッチ学習法**と**オンライン学習法**を折衷した方法である。
|
24
20
|
|
25
21
|
3者の間に数学的な差はなく、loss関数の定義に加味したり、サンプリング順番を工夫したりする程度の差しなかい。
|
26
22
|
|
@@ -28,7 +24,7 @@
|
|
28
24
|
|
29
25
|
★★★★★★★★★★
|
30
26
|
|
31
|
-
|
27
|
+
**バッチ学習法**と**オンライン学習法**とはどっちが先に発明されたかについて、
|
32
28
|
|
33
29
|
算法自身からは分からないと思う。
|
34
30
|
|
@@ -40,13 +36,13 @@
|
|
40
36
|
|
41
37
|
|
42
38
|
|
43
|
-
日本語版のWikipediaでは、「オンライン学習法」が「バッチ学習法」を改造して生まれたと書かれている。
|
39
|
+
日本語版のWikipediaでは、「**オンライン学習法**」が「**バッチ学習法**」を改造して生まれたと書かれている。
|
44
40
|
|
45
41
|
|
46
42
|
|
47
43
|
★★★★★★★★★★
|
48
44
|
|
49
|
-
「batch normalization」非常に重要なテクニック:
|
45
|
+
「**batch normalization**」非常に重要なテクニック:
|
50
46
|
|
51
47
|
① 学習レートを大きくすることが可能にして、訓練速度アップ;
|
52
48
|
|
3
追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -13,3 +13,43 @@
|
|
13
13
|
|
14
14
|
|
15
15
|
ご存知の方説明お願いします。
|
16
|
+
|
17
|
+
********************************************
|
18
|
+
|
19
|
+
自分のこれまでの結論:
|
20
|
+
|
21
|
+
★★★★★★★★★★
|
22
|
+
|
23
|
+
ミニバッチ学習法はマッチ学習法とオンライン学習法を折衷した方法である。
|
24
|
+
|
25
|
+
3者の間に数学的な差はなく、loss関数の定義に加味したり、サンプリング順番を工夫したりする程度の差しなかい。
|
26
|
+
|
27
|
+
|
28
|
+
|
29
|
+
★★★★★★★★★★
|
30
|
+
|
31
|
+
マッチ学習法とオンライン学習法とはどっちが先に発明されたかについて、
|
32
|
+
|
33
|
+
算法自身からは分からないと思う。
|
34
|
+
|
35
|
+
降下法系のoptimizer算法からすると、算法自身が本質的にサンプル数と関係ないですから。
|
36
|
+
|
37
|
+
一回の更新に一つのサンプルを使うか、複数使うかに従うloss関数の定義による。
|
38
|
+
|
39
|
+
(ただ、loss関数がNNのweightに微分可能でなければならない)
|
40
|
+
|
41
|
+
|
42
|
+
|
43
|
+
日本語版のWikipediaでは、「オンライン学習法」が「バッチ学習法」を改造して生まれたと書かれている。
|
44
|
+
|
45
|
+
|
46
|
+
|
47
|
+
★★★★★★★★★★
|
48
|
+
|
49
|
+
「batch normalization」非常に重要なテクニック:
|
50
|
+
|
51
|
+
① 学習レートを大きくすることが可能にして、訓練速度アップ;
|
52
|
+
|
53
|
+
② NNの初期値の影響を抑える;
|
54
|
+
|
55
|
+
③ L2正規化やdrop outを不要にする可能だから、過学習を和らげる働きがあると推測。
|
2
カテゴリをさらに追加
test
CHANGED
File without changes
|
test
CHANGED
File without changes
|
1
補充
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,6 +1,8 @@
|
|
1
|
-
元々は、
|
1
|
+
元々は、一つの学習データ毎にNNに学習させるのだったのですが、学習の能率と安定性を考えると、バッチ単位で学習するほうが良いと思われました。
|
2
2
|
|
3
|
+
ことろが、どうしてその後、確率的勾配降下法(stochastic gradient descent, SGD)が有名になって、良く使われることになったのでしょうか。
|
4
|
+
|
3
|
-
Q1 : 「確率的勾配降下法SGD」って、一つの学習データを単位に学習するのですね。これは最初学習法に戻るのではと思いますが、誤解でしょうか。
|
5
|
+
Q1 : 「確率的勾配降下法SGD」って、一つの学習データを単位に学習するのですね。これは最初の学習法(不安定性が悪いとか)に戻るのではと思いますが、誤解でしょうか。
|
4
6
|
|
5
7
|
|
6
8
|
|