回答編集履歴
1
edit
answer
CHANGED
@@ -2,4 +2,26 @@
|
|
2
2
|
|
3
3
|
上記のリンクの回答が参考になります。
|
4
4
|
|
5
|
-
何か疑問があれば追記していただければ幸いです。
|
5
|
+
何か疑問があれば追記していただければ幸いです。
|
6
|
+
|
7
|
+
---
|
8
|
+
|
9
|
+
追記
|
10
|
+
|
11
|
+
強化学習は結構の歴史があって、それなりに複雑なので、つまみ食いをすると混乱することが多いかと思います。
|
12
|
+
以下の本(草稿)は無料で読めますので、一度体系的に学習してみるといろいろな概念が整理されるかと思います。(リンク先のものより新しい版です)
|
13
|
+
少し重めなので、周囲に興味のある人と輪読するとよいかもしれません。
|
14
|
+
http://incompleteideas.net/book/bookdraft2017nov5.pdf
|
15
|
+
|
16
|
+
p84の5-5にoff-policyの話の説明があります。
|
17
|
+
|
18
|
+
強化学習をする際に、エージェントのactionを決めるためのpolicyと評価関数を更新するためのpolicyは一致する必要がありません。
|
19
|
+
そのことだけが、off/on-policyを区別します。
|
20
|
+
|
21
|
+
Q-learningでは評価更新にgreedyを使う(p107の6-5)ので、greedy以外でactionを決めればoff-policyになります。
|
22
|
+
またaction決めにgreedyを使うと、on-policyということになります。ただしgreedyだけをするとまともな強化学習とは言いがたいということで、意味があまりありません。一般にQ-learningを考える際にはgreedyはダメということを確認した後だから、という背景があります。本の冒頭のあたりに強化学習は「explore」と「exploit」の競合を扱うと述べられていたと記憶しています。
|
23
|
+
|
24
|
+
off-policyの場合、完全ランダムでもよいのですが、そうすると学習が安定しないのでimportance samplingやε-greeayなどすることが実践的になります。
|
25
|
+
でも概念だけを考えれば、policyの詳細は何も関係ないことがわかるかと思います。
|
26
|
+
|
27
|
+
思い出しながらお答えしているので、間違いがあるかもしれません。そのような場合はご指摘いただければ幸いです。
|