深層強化学習で禁止行動を設ける

前提・実現したいこと

深層強化学習で禁止行動を作成したいのですが，やり方がわかりません．
具体的には，株の売買をしたくて，3種類の行動として「株を買う」「株を売る」「なにもしない」を設定して，株を買っている状態の時は，「株を売る」or「なにもしない（保持）」．反対に株を持っていないときは，「買う」or「なにもしない」のようにしたいです．

今のところの考えとしては，ニューラルネットをそれぞれの場合で作り学習をするのかなと思っています．

行動規範の内容に同意します

回答2件

結果の出力を抑制するのではなく、出力された結果に対して実際に行動を起こすための条件式を設定すればよいだけでは？

投稿2021/11/02 08:43

mather

総合スコア6765

hiragaga

2021/11/03 00:57

回答いただきありがとうございます．強化学習に対して理解が乏しい部分があり申し訳ないのですが，出力された最大のQ値があっているか？について，更新式を利用してニューラルネットを更新していくのに，違う行動を選択するのは良くない（適切に学習が進まない）のかな？と思ったのですが，どう思いますか？

行動規範の内容に同意します

ベストアンサー

ニューラルネットをそれぞれの場合で作り学習をする

こういう煩わしいこと避けるために強化学習が生まれたと理解しています。

環境データ（入力）→[強化学習がスコアの最大化を図る]→スコアが最大の行動を選択（出力）

というのが強化学習の根底にあります。めんどくさい計算をすべて「スコアの最大化を図る」にぶっ込むわけです。一番早いのは、望ましくない行動をしたときに、スコアに罰則を加えることです。

「株を買う」「株を売る」「なにもしない」を設定して，株を買っている状態の時は，「株を売る」or「なにもしない（保持）」．反対に株を持っていないときは，「買う」or「なにもしない」

株価に対して強化学習を使うのが良いかはともかく、素直に実装するなら、

損をしたらスコア減
得をしたらスコア増

が自然です。もし、禁止事項を加えるのであれば、

望ましくない行動を選択したときに、スコア減

これを加えるだけです。もし思うように動いてくれなければ、適当なさじ加減でスコアの減少量を増やしてあげる（罰則を強くする）と望ましくない行動は減ります。

投稿2021/11/02 21:35

編集2021/11/02 21:36

退会済みユーザー

総合スコア0

hiragaga

2021/11/03 00:46

回答ありがとうございます．追加で3点質問してもよろしいでしょうか．１つ目が，「望ましくない行動を選択したときに、スコア減」について，環境クラスで望ましくない行動を選択したときに、スコア減して行動しないということであってますか？２つ目は，「望ましくない行動を選択したときに、スコア減」について報酬のclippingで与える報酬を-1,0,1とかにしてた場合はスコアの減少量とか増やせないですか？３つ目は，回答者さんに答えていただいた回答以外に出力層でスコア最大の行動を選択する場面で，前回の状態を考慮して条件式で禁止行動以外の最大のスコアの行動を選択する．だと適切に学習されないですか？

退会済みユーザー

2021/11/03 11:59 編集

> 「望ましくない行動を選択したときに、スコア減」について，環境クラスで望ましくない行動を選択したときに、スコア減して行動しないということであってますか？そういうイメージです。スコア減となる行動を選んだ時にスコアを下げてしまう処理をします。行動をするかしないかは強化学習のプログラムが決めることなので、人間にできることは「選ぶと損するよ」と設定してやるまでです。株価ではないかもしれませんが、短期的に破損するような選択肢を意図的に強化学習が選ぶこともあり得る話です。チェスや将棋なら敢えて駒を捨てるようなこともありえますよね？ > 報酬のclippingで与える報酬を-1,0,1とかにしてた場合はスコアの減少量とか増やせないですか？スコアの増減量を制限してしまうのがclippingと思いますので、それを意図的に外すようなこともをしたい、というように見えます。実装方法によると思いますが、例えば〇回学習した後はclippingを外すは（スコアの増減量を変数にしてしまえば）できると思います。 > 前回の状態を考慮して条件式で禁止行動以外の最大のスコアの行動を選択する．だと適切に学習されないですか？前回の選択肢すら環境の一部と捉えれば自然なことのようにも思います。やってみないと分かりませんが、恐らく前に何を入力をしたかのようなことは「こまけぇこたぁいいんだよ!!」と飲み込んでしまうのが強化学習と思います。強化学習も深層学習も柔軟すぎる技術なので、一般的な回答でズバッと予言するようなものは「超大雑把な回答」以外では難しいと思います。

hiragaga

2021/11/05 05:08

回答いただきありがとうございます．大変参考になります．

行動規範の内容に同意します

あなたの回答