Deep learningの学習アルゴリズムにおいて
ミニバッチの選び出し
勾配の算出
パラメーターの更新
ということを繰り返して
損失関数の値を最も減らす方向を目指すことは理解し、
SGDというパラメータの更新手段については理解できるのですが
Momentum,AdaGrad,Adamというパラメータの更新手段については
なぜその四つが更新手段として有効なのか?
また
なぜSGDではダメなのか
が分かりません
上の四つの利点とは何なんでしょうか?
どうかご教授お願いします
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/04/25 14:25