強化学習の本でπθ(s,a)と習ったのですがこれは関数か何かなのでしょうか? もし関数ならこの関数を実行しているのはaだったらしっくりくるのですがいまいちこのπθ(s,a)の書き方に納得できません なぜこのように書くのでしょうか?
とても抽象的な表現で初歩的な質問なのですがよろしくお願いします。
情報が断片的すぎます。文脈が変われば記号の意味がすべて変わってしまうので、具体的にどの内容について聞きたいのか書きましょう。
たとえば、以下のページに同じ記号が出てきますがこういうことでしょうか?
https://qiita.com/YN6127yn/items/2432e8a1d1fb11c1111b#monte-carlo-policy-gradient
解決済みのようですが、回答について気になったので補足します。
強化学習の文脈で \pi_\theta (s, a) といった場合、確率方策関数を表します。
s は state (状態)、a は action の略で、今エージェントが s の状態にあるとき、行動 a を取る確率です。
\theta はこの関数を特徴づけるパラメータで、学習によって値を更新します。
回答1件
あなたの回答
tips
プレビュー