質問したいこと

pytorchで評価時に計算したニューラルネットをそのまま訓練時に使えるものでしょうか。またそのメリットはあるのでしょうか。

ニューラルネットの誤差逆伝搬では順伝搬時に計算した各ノードの値を使って重みを更新していたと記憶していますが、順伝搬の計算を評価モードで実行して誤差逆伝搬を訓練モードで行う実装を見て、なんでそんなことをしているのか(その必要があるのか)と思いました。

ソースコード

pytorchによる深層強化学習の実装のBrain#replayが対象の実装になります。
(issueで質問すべきだとも思いますが作者はみていないっぽいのでこちらで質問することにしました)

Brain#__init__でニューラルネットを実装しています。
このニューラルネットでは入力は4変数のベクトルstate,出力は要素数2のベクトルaction(2種類の行動に対する行動価値)となります。
ここでのニューラルネットの実装では

となっており、#4.*では訓練モードなのに順伝搬の実行がされていません。
なので誤差逆伝搬のための順伝搬の計算は評価モード時の#3.2で実行されているものを使っているのかと考えました。

質問の仕方がくどくなり申し訳ありません。
ご教授いただければと思います。よろしくお願いします。

行動規範の内容に同意します

回答1件

本は読んでいません．
ここでいう訓練モードと評価モードはdropoutやbatch normのon/offという意味だと思います．
一般的に強化学習は訓練モードのモデルでデータを生成して学習するのが普通だと思います．間違っていたらすいません．

投稿2019/07/06 06:34

総合スコア68

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる