質問編集履歴

追記

2018/03/15 06:17

投稿

Hayato1201

スコア220

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -31,3 +31,21 @@
 という事です！長々と申し訳ありませんがよろしくお願いいたします。
+ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
+追記です。
+クラスを自作というのはどこのクラスを作り変えれば良いのでしょうか？また、step関数での実装というと、
+例えば、stepにアクションとして５が選ばれ、５が空だったとします。そうしたら空では無い箱か「何もしない」を選ばせるまでstep内でactionを変化させるということでしょうか？しかしそうするとAgentとしては５を選んでいるのに実際は違うアクションを選んでいることになり、学習がうまくいかない気がします。
+また、二つ目の質問に対してですが、step内で「箱Aが満杯になる」、もしくは、「何もしない」が選ばれるまで、報酬としてreturnされるのは０として、実際の値は保存しておき、以上二つの条件に当てはまった時そのまで保存されていた報酬の合計をreturnする様にするという事ですか？
+実はある論文の実装をしたいのですが、それの記述だと「箱Aが満杯になる」、もしくは、「何もしない」が選ばれるとそこまでで一つのタイムステップとなると書かれていました。以上の様に行うとreturnしている値は同じでも無駄にステップ数を稼いでしまいます。これは問題になりますかね・・・？