深層強化学習モデルで人間が力の入れ具合を調節するように連続的に出力の強度を調節する方法はあるのでしょうか？

一般的に自分の知っている範囲では、action spaceを増やし出力の強度を調節する方法はありますが、
それではaction spaceを増やしすぎると学習がうまく行かなくなり、
更に離散的で連続的に出力の強度の調節を行うことができません。

そこで、人間が力の入れ具合を調節するように連続的に出力の強度を調節する方法はあるのでしょうか？

具体的にPendulumを例に上げると、以下の表のように5段階で出力強度を調整する方法などが見られます。
しかし、これを-2.0~2.0の間で適切な出力強度を選択できるようなアルゴリズムは存在しているかということです。
Pendulumのwiki

存在しないと完全に断言できなくてもいいので、一般的に見られないのかを教えていただければありがたいです。

行動規範の内容に同意します

回答1件

ベストアンサー

これを-2.0~2.0の間で適切な出力強度を選択できるようなアルゴリズムは存在しているかということです。

深層強化学習で連続的な行動空間 (action space) を扱えるアルゴリズムが存在するかという質問でしたら、存在します。

例えば、DDPG (deep deterministic policy gradient) のような方策勾配法ベースのアルゴリズムです。Github で検索すると、実装例も出てきます。
質問の例ですと、モデルの出力は [-2, 2] の実数になります。

以下の記事に著名な深層強化学習のアルゴリズムが紹介されています。

投稿2020/10/03 17:41

総合スコア21956

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問