質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

強化学習

強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。

Q&A

解決済

1回答

1873閲覧

強化学習のValued-BasedとPolicy-Basedについてです。

Hayato1201

総合スコア220

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

強化学習

強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。

0グッド

0クリップ

投稿2018/03/30 09:46

Valued-BasedとPolicy-Based、これらのアルゴリズム的違いは分かるのですが、どの様にしてこれらを使い分ければ良いでしょう?こういった問題を解きたい時にはValued-Basedで、この様な時はPolicy-Based、だ、といったものはあるのでしょうか?Valued-BasedであるQ学習のQをニューラルネットワークで同定するDQN、Policyをニューラルネットワークで同定するPolicy Gradient、どちらもニューラルネットワークを用いた強化学習の手法ですが、どの様に問題によって使い分ける必要があるでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

Value-BasedとPolicy-Basedは様々な派生アルゴリズムが有るので、ここでは代表的なQ学習とREINFORCEの違いについて述べさせてもらいます。

Q学習

【メリット】
収束速度が(REINFORCE等と比較して)速い。
行動価値の解釈が容易。

【デメリット】
状態And/Or行動が連続である場合に対応できない(対応する為には、派生アルゴリズムが必要)。
行動価値関数の微小な変化が原因で、方策が大きく変化する可能性がある。

REINFORCE

【メリット】
連続な状態And/Or行動空間でもそのまま利用可能。
方策の変化が比較的緩やか。

【デメリット】
収束速度が比較的遅い。
(行動価値関数をベースとして方策を定義した場合に)行動価値の解釈が困難。

「行動価値の解釈」について補足します。

Q学習で学習後にQ(si,aj)が0.7だったとします。
この場合、状態siで行動ajを選択した場合の報酬の期待値は0.7前後だと解釈出来ます。

ですが、REINFORCEでの学習後は、Q値と報酬の期待値の間にはその様な関係は成り立ちません。
あくまで、「Q値と報酬の期待値には正の相関が有るだろう」という事です。

最近は深層強化学習のベンチマークとしてTVゲームを用いるケースが多いですが、私なら

  • 操作がデジタルなら(例:ファミコン)Value-Based
  • 操作がアナログなら(例:PS4)Policy-Based

という選択をします。

投稿2018/04/26 10:52

rtr1950x

総合スコア298

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Hayato1201

2018/04/26 12:48

回答ありがとうございます!強化学習にお詳しい様ですので、もしお時間がございましたら私の他の機械学習に関する質問にも答えて頂けると幸いです!
rtr1950x

2018/04/26 12:57

お役に立てた様で何よりです。ご質問の一覧を見て、分かりそうなものは後ほど回答させて頂きます。
Hayato1201

2018/04/26 13:20

ありがとうございます!!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問