Value-BasedとPolicy-Basedは様々な派生アルゴリズムが有るので、ここでは代表的なQ学習とREINFORCEの違いについて述べさせてもらいます。
Q学習
【メリット】
収束速度が(REINFORCE等と比較して)速い。
行動価値の解釈が容易。
【デメリット】
状態And/Or行動が連続である場合に対応できない(対応する為には、派生アルゴリズムが必要)。
行動価値関数の微小な変化が原因で、方策が大きく変化する可能性がある。
REINFORCE
【メリット】
連続な状態And/Or行動空間でもそのまま利用可能。
方策の変化が比較的緩やか。
【デメリット】
収束速度が比較的遅い。
(行動価値関数をベースとして方策を定義した場合に)行動価値の解釈が困難。
「行動価値の解釈」について補足します。
Q学習で学習後にQ(si,aj)が0.7だったとします。
この場合、状態siで行動ajを選択した場合の報酬の期待値は0.7前後だと解釈出来ます。
ですが、REINFORCEでの学習後は、Q値と報酬の期待値の間にはその様な関係は成り立ちません。
あくまで、「Q値と報酬の期待値には正の相関が有るだろう」という事です。
最近は深層強化学習のベンチマークとしてTVゲームを用いるケースが多いですが、私なら
- 操作がデジタルなら(例:ファミコン)Value-Based
- 操作がアナログなら(例:PS4)Policy-Based
という選択をします。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/04/26 12:48
2018/04/26 12:57
2018/04/26 13:20