回答編集履歴

3

修正

2017/08/02 06:45

投稿

macchi123jp
macchi123jp

スコア141

test CHANGED
@@ -98,7 +98,7 @@
98
98
 
99
99
  逆にTが高いほどランダムに近い行動選択をするようになります。)
100
100
 
101
- このプログラムは試行回数が高くなるほどT値をくする実装になっていますが、
101
+ このプログラムは試行回数が高くなるほどT値をくする実装になっていますが、
102
102
 
103
103
  その理由は、身近な先生などにヒントをもらったほうが良いかもしれません。
104
104
 

2

修正

2017/08/02 06:45

投稿

macchi123jp
macchi123jp

スコア141

test CHANGED
@@ -94,9 +94,9 @@
94
94
 
95
95
  ただし、「ボルツマン選択」をするということなので、その式に従います。
96
96
 
97
- (Tがいほどエージェントは値の高いQ値を選択する可能性が上がり、
97
+ (温度定数Tがいほどエージェントは値の高いQ値を選択する可能性が上がり、
98
-
98
+
99
- 逆に温度定数が高いほどランダムに近い行動選択をするようになります。)
99
+ 逆にTが高いほどランダムに近い行動選択をするようになります。)
100
100
 
101
101
  このプログラムは試行回数が高くなるほどT値を高くする実装になっていますが、
102
102
 

1

修正

2017/08/02 06:33

投稿

macchi123jp
macchi123jp

スコア141

test CHANGED
@@ -178,7 +178,7 @@
178
178
 
179
179
  Q学習の式は、下記になります。
180
180
 
181
- Q値(現在) = Q値(現在) + Alpha * (r + Gamma * 最大値 - Q値(現在));
181
+ Q値(現在) = Q値(現在) + Alpha * (報酬 + Gamma * 最大値 - Q値(現在));
182
182
 
183
183
 
184
184