強化学習のValued-BasedとPolicy-Basedについてです。

回答率: 85.48%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.48%

トップ深層学習に関する質問

Q&A

解決済

1回答

1873閲覧

強化学習のValued-BasedとPolicy-Basedについてです。

総合スコア220

0グッド

0クリップ

投稿2018/03/30 09:46

0

0

Valued-BasedとPolicy-Based、これらのアルゴリズム的違いは分かるのですが、どの様にしてこれらを使い分ければ良いでしょう？こういった問題を解きたい時にはValued-Basedで、この様な時はPolicy-Based、だ、といったものはあるのでしょうか？Valued-BasedであるQ学習のQをニューラルネットワークで同定するDQN、Policyをニューラルネットワークで同定するPolicy Gradient、どちらもニューラルネットワークを用いた強化学習の手法ですが、どの様に問題によって使い分ける必要があるでしょうか？

行動規範の内容に同意します

回答1件

0

ベストアンサー

Value-BasedとPolicy-Basedは様々な派生アルゴリズムが有るので、ここでは代表的なQ学習とREINFORCEの違いについて述べさせてもらいます。

Q学習

【メリット】
収束速度が（REINFORCE等と比較して）速い。
行動価値の解釈が容易。

【デメリット】
状態And/Or行動が連続である場合に対応できない（対応する為には、派生アルゴリズムが必要）。
行動価値関数の微小な変化が原因で、方策が大きく変化する可能性がある。

REINFORCE

【メリット】
連続な状態And/Or行動空間でもそのまま利用可能。
方策の変化が比較的緩やか。

【デメリット】
収束速度が比較的遅い。
（行動価値関数をベースとして方策を定義した場合に）行動価値の解釈が困難。

「行動価値の解釈」について補足します。

Q学習で学習後にQ(si,aj)が0.7だったとします。
この場合、状態siで行動ajを選択した場合の報酬の期待値は0.7前後だと解釈出来ます。

ですが、REINFORCEでの学習後は、Q値と報酬の期待値の間にはその様な関係は成り立ちません。
あくまで、「Q値と報酬の期待値には正の相関が有るだろう」という事です。

最近は深層強化学習のベンチマークとしてTVゲームを用いるケースが多いですが、私なら

操作がデジタルなら（例：ファミコン）Value-Based
操作がアナログなら（例：PS4）Policy-Based

という選択をします。

投稿2018/04/26 10:52

総合スコア298

2018/04/26 12:48

回答ありがとうございます！強化学習にお詳しい様ですので、もしお時間がございましたら私の他の機械学習に関する質問にも答えて頂けると幸いです！

2018/04/26 12:57

お役に立てた様で何よりです。ご質問の一覧を見て、分かりそうなものは後ほど回答させて頂きます。

2018/04/26 13:20

ありがとうございます！！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ深層学習に関する質問

強化学習のValued-BasedとPolicy-Basedについてです。

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【重要なお知らせ】いつもteratailをご利用いただきありがとうございます。現在、認証システムの修正により、一部のユーザーが強制的にログアウトされる可能性がございます。お手数おかけしますが、再度ログインを行なっていただきますよう宜しくお願いいたします。ご不便をおかけし申し訳ございません。

過去のお知らせを見る