回答編集履歴
1
simulatorクラスのrunメソッド内に1エピソードあたり10回のfor文を追加して、参考にしたコードに合わせた。
test
CHANGED
@@ -9,3 +9,7 @@
|
|
9
9
|
|
10
10
|
|
11
11
|
ただ、実行はできるのですが意図した学習が行われていない状況です。(一番行動価値が高いaction 0.5を選択するようになってほしい)
|
12
|
+
|
13
|
+
>>
|
14
|
+
|
15
|
+
参考にしたコードのように1エピソード内に10ステップのループを追加したらtotal_reward = 5(0.5×10)となる結果が得られたのでとりあえずよしとします。
|