回答編集履歴

1

simulatorクラスのrunメソッド内に1エピソードあたり10回のfor文を追加して、参考にしたコードに合わせた。

2018/04/03 06:43

投稿

shuim
shuim

スコア8

test CHANGED
@@ -9,3 +9,7 @@
9
9
 
10
10
 
11
11
  ただ、実行はできるのですが意図した学習が行われていない状況です。(一番行動価値が高いaction 0.5を選択するようになってほしい)
12
+
13
+ >>
14
+
15
+ 参考にしたコードのように1エピソード内に10ステップのループを追加したらtotal_reward = 5(0.5×10)となる結果が得られたのでとりあえずよしとします。