回答編集履歴

simulatorクラスのrunメソッド内に1エピソードあたり10回のfor文を追加して、参考にしたコードに合わせた。

2018/04/03 06:43

投稿

スコア8

test CHANGED Viewed

@@ -9,3 +9,7 @@
 ただ、実行はできるのですが意図した学習が行われていない状況です。（一番行動価値が高いaction 0.5を選択するようになってほしい）
+＞＞
+参考にしたコードのように1エピソード内に10ステップのループを追加したらtotal_reward = 5(0.5×10)となる結果が得られたのでとりあえずよしとします。