質問編集履歴
3
表題変更
test
CHANGED
@@ -1 +1 @@
|
|
1
|
-
深層学習の学習曲線はなぜloss値が上下するのか?
|
1
|
+
深層学習の学習曲線はなぜloss値が上下するのか?(なぜ単調減少でないのか?)
|
test
CHANGED
File without changes
|
2
誤字修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -2,7 +2,7 @@
|
|
2
2
|
|
3
3
|
|
4
4
|
|
5
|
-
例えば、以下の図では、train_lossも、test_accuracyも単調減少、単調増加ではなく、たまに上下しています。自分なりに考えた仮説は以下ですが、他にも理由はありますでしょうか?
|
5
|
+
例えば、以下の図では、train_lossも、test_accuracyも単調減少、単調増加ではなく、たまに上下しています。自分なりに考えた仮説は以下ですが、他にも理由はありますでしょうか?(図はイメージなので、この図を出した学習方法に依存した回答でなくて問題ありません)
|
6
6
|
|
7
7
|
|
8
8
|
|
@@ -20,7 +20,7 @@
|
|
20
20
|
|
21
21
|
|
22
22
|
|
23
|
-
考え方として、汎化性能が高いパラメータを選択する、という意味合いでスパイクも含めてパラメータ選定すべきかと思いますが、スパイク値となっているパラメータを採用するのがどうも気持ちいです(例えば、全体の学習曲線の傾向に関係なく、1つだけtest_accuracyの高いスパイクが発生している場合など)。
|
23
|
+
考え方として、汎化性能が高いパラメータを選択する、という意味合いでスパイクも含めてパラメータ選定すべきかと思いますが、スパイク値となっているパラメータを採用するのがどうも気持ち悪いです(例えば、全体の学習曲線の傾向に関係なく、1つだけtest_accuracyの高いスパイクが発生している場合など)。
|
24
24
|
|
25
25
|
|
26
26
|
|
1
表現追記
test
CHANGED
File without changes
|
test
CHANGED
@@ -2,15 +2,13 @@
|
|
2
2
|
|
3
3
|
|
4
4
|
|
5
|
-
例えば、以下の図では、train
|
5
|
+
例えば、以下の図では、train_lossも、test_accuracyも単調減少、単調増加ではなく、たまに上下しています。自分なりに考えた仮説は以下ですが、他にも理由はありますでしょうか?
|
6
|
-
|
7
|
-
自分なりに考えた仮説は以下ですが、他にも理由はありますでしょうか?
|
8
6
|
|
9
7
|
|
10
8
|
|
11
|
-
1、SGDを使っている場合、勾配更新が選択したミニバッチに依存するため、真の微分係数とは別の方向に更新されてしまうことがある。
|
12
9
|
|
10
|
+
|
13
|
-
(train_lossがばらつくのもこれが主原因?)
|
11
|
+
1、SGDを使っている場合、勾配更新が選択したミニバッチに依存するため、真の微分係数とは別の方向に更新されてしまうことがある (train_lossがばらつくのもこれが主原因?)
|
14
12
|
|
15
13
|
2、損失関数の底での振動
|
16
14
|
|
@@ -22,7 +20,7 @@
|
|
22
20
|
|
23
21
|
|
24
22
|
|
25
|
-
考え方として、汎化性能が高いパラメータを選択する、という意味合いでスパイクも含めてパラメータ選定すべきかと思いますが、スパイク値となっているパラメータを採用するのがどうも気持ち
|
23
|
+
考え方として、汎化性能が高いパラメータを選択する、という意味合いでスパイクも含めてパラメータ選定すべきかと思いますが、スパイク値となっているパラメータを採用するのがどうも気持ちいです(例えば、全体の学習曲線の傾向に関係なく、1つだけtest_accuracyの高いスパイクが発生している場合など)。
|
26
24
|
|
27
25
|
|
28
26
|
|