ニューラルネトワークでの学習の最適化に、フレームワークのデフォルトではしばしば、SGD が設定されています。TutorialでもSGDが使われており、特に画像認識で有名なAdamでさへ一度もみたことがありません。まるで推奨されていないかのようです。SGDには、momentum引数がついているので、(y-t)の微分だけのものよりはマシだと思いますが、基本的にデバッグ以外では使わないと言われています。なぜSGDなのでしょうか。
(不審に思ったので、SGDで画像認識の学習をしてみたところ、Adamよりも収束が早かったです。AdamやAdaGradは不要?)
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/01/04 07:54
2019/01/04 08:05