回答編集履歴
3
修正
test
CHANGED
@@ -98,7 +98,7 @@
|
|
98
98
|
|
99
99
|
逆にTが高いほどランダムに近い行動選択をするようになります。)
|
100
100
|
|
101
|
-
このプログラムは試行回数が高くなるほどT値を
|
101
|
+
このプログラムは試行回数が高くなるほどT値を低くする実装になっていますが、
|
102
102
|
|
103
103
|
その理由は、身近な先生などにヒントをもらったほうが良いかもしれません。
|
104
104
|
|
2
修正
test
CHANGED
@@ -94,9 +94,9 @@
|
|
94
94
|
|
95
95
|
ただし、「ボルツマン選択」をするということなので、その式に従います。
|
96
96
|
|
97
|
-
(Tが
|
97
|
+
(温度定数Tが低いほどエージェントは値の高いQ値を選択する可能性が上がり、
|
98
|
-
|
98
|
+
|
99
|
-
逆に
|
99
|
+
逆にTが高いほどランダムに近い行動選択をするようになります。)
|
100
100
|
|
101
101
|
このプログラムは試行回数が高くなるほどT値を高くする実装になっていますが、
|
102
102
|
|
1
修正
test
CHANGED
@@ -178,7 +178,7 @@
|
|
178
178
|
|
179
179
|
Q学習の式は、下記になります。
|
180
180
|
|
181
|
-
Q値(現在) = Q値(現在) + Alpha * (
|
181
|
+
Q値(現在) = Q値(現在) + Alpha * (報酬 + Gamma * 最大値 - Q値(現在));
|
182
182
|
|
183
183
|
|
184
184
|
|