回答率: 85.48%

質問するログイン新規登録

トップ Cに関する質問 Q学習の問題とC言語の問題

編集履歴

回答編集履歴

3

修正

2017/08/02 06:45

投稿

スコア141

test CHANGED Viewed

@@ -98,7 +98,7 @@
      逆にTが高いほどランダムに近い行動選択をするようになります。)
-     このプログラムは試行回数が高くなるほどT値を高くする実装になっていますが、
+     このプログラムは試行回数が高くなるほどT値を低くする実装になっていますが、
      その理由は、身近な先生などにヒントをもらったほうが良いかもしれません。

2

修正

2017/08/02 06:45

投稿

スコア141

test CHANGED Viewed

@@ -94,9 +94,9 @@
      ただし、「ボルツマン選択」をするということなので、その式に従います。
-   (Tが高いほどエージェントは値の高いQ値を選択する可能性が上がり、
+   (温度定数Tが低いほどエージェントは値の高いQ値を選択する可能性が上がり、
-     逆に温度定数が高いほどランダムに近い行動選択をするようになります。)
+     逆にTが高いほどランダムに近い行動選択をするようになります。)
      このプログラムは試行回数が高くなるほどT値を高くする実装になっていますが、

1

修正

2017/08/02 06:33

投稿

スコア141

test CHANGED Viewed

@@ -178,7 +178,7 @@
    Q学習の式は、下記になります。
-   Q値(現在) = Q値(現在) + Alpha * (r + Gamma * 最大値 - Q値(現在));
+   Q値(現在) = Q値(現在) + Alpha * (報酬 + Gamma * 最大値 - Q値(現在));