質問編集履歴

1

追記

2018/03/15 06:17

投稿

Hayato1201
Hayato1201

スコア220

test CHANGED
File without changes
test CHANGED
@@ -31,3 +31,21 @@
31
31
 
32
32
 
33
33
  という事です!長々と申し訳ありませんがよろしくお願いいたします。
34
+
35
+
36
+
37
+
38
+
39
+ ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
40
+
41
+ 追記です。
42
+
43
+
44
+
45
+ クラスを自作というのはどこのクラスを作り変えれば良いのでしょうか?また、step関数での実装というと、
46
+
47
+ 例えば、stepにアクションとして5が選ばれ、5が空だったとします。そうしたら空では無い箱か「何もしない」を選ばせるまでstep内でactionを変化させるということでしょうか?しかしそうするとAgentとしては5を選んでいるのに実際は違うアクションを選んでいることになり、学習がうまくいかない気がします。
48
+
49
+ また、二つ目の質問に対してですが、step内で「箱Aが満杯になる」、もしくは、「何もしない」が選ばれるまで、報酬としてreturnされるのは0として、実際の値は保存しておき、以上二つの条件に当てはまった時そのまで保存されていた報酬の合計をreturnする様にするという事ですか?
50
+
51
+ 実はある論文の実装をしたいのですが、それの記述だと「箱Aが満杯になる」、もしくは、「何もしない」が選ばれるとそこまでで一つのタイムステップとなると書かれていました。以上の様に行うとreturnしている値は同じでも無駄にステップ数を稼いでしまいます。これは問題になりますかね・・・?