Deep learningのGSDについて

Deep learningの学習アルゴリズムにおいて
ミニバッチの選び出し
勾配の算出
パラメーターの更新
ということを繰り返して
損失関数の値を最も減らす方向を目指すことは理解し、

SGDというパラメータの更新手段については理解できるのですが
Momentum,AdaGrad,Adamというパラメータの更新手段については
なぜその四つが更新手段として有効なのか？
また
なぜSGDではダメなのか
が分かりません
上の四つの利点とは何なんでしょうか？
どうかご教授お願いします

行動規範の内容に同意します

回答1件

ベストアンサー

どのような最適化を適用すべきかはケースバイケースと思います。私には回答できませんが。
おそらくまともに取り組めば、それだけで論文書けると思います。

とりあえず以下は参考になるかと思います。
勾配降下法の最適化アルゴリズムを概観する

投稿2017/04/24 13:35

総合スコア38256

2017/04/25 14:25

ありがとうございます^_^

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問