質問編集履歴
3
分かりにくかったので修正しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -2,6 +2,10 @@
|
|
2
2
|
|
3
3
|
強化学習のQ学習の教科書の簡単なコードの内容を理解したいです。
|
4
4
|
|
5
|
+
なお、教科書は下記のものになります。
|
6
|
+
|
7
|
+
「行動データの計算論モデリング: 強化学習モデルを例として(片平健太郎著)」
|
8
|
+
|
5
9
|
|
6
10
|
|
7
11
|
教科書のQ学習のコードの解読をしているのですが、「フィットするモデルの設定」より前の部分が果たしてる役割が、よく理解できていません。
|
2
分かりにくかったので修正しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -314,7 +314,7 @@
|
|
314
314
|
|
315
315
|
|
316
316
|
|
317
|
-
func_qlearning の定義がされる前の箇所で導出されたQの値が、「フィットするモデルの設定」に対して、どのように渡されて、どこで使われているのかが、分かりません。
|
317
|
+
関数func_qlearning の定義がされる前の箇所で導出されたQの値が、「フィットするモデルの設定」に対して、どのように渡されて、どこで使われているのかが、分かりません。
|
318
318
|
|
319
319
|
|
320
320
|
|
1
分かりにくかったので修正しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -314,7 +314,7 @@
|
|
314
314
|
|
315
315
|
|
316
316
|
|
317
|
-
|
317
|
+
func_qlearning の定義がされる前の箇所で導出されたQの値が、「フィットするモデルの設定」に対して、どのように渡されて、どこで使われているのかが、分かりません。
|
318
318
|
|
319
319
|
|
320
320
|
|