前提・実現したいこと
深層強化学習で禁止行動を作成したいのですが,やり方がわかりません.
具体的には,株の売買をしたくて,3種類の行動として「株を買う」「株を売る」「なにもしない」を設定して,株を買っている状態の時は,「株を売る」or「なにもしない(保持)」.反対に株を持っていないときは,「買う」or「なにもしない」のようにしたいです.
今のところの考えとしては,ニューラルネットをそれぞれの場合で作り学習をするのかなと思っています.
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答2件
0
結果の出力を抑制するのではなく、出力された結果に対して実際に行動を起こすための条件式を設定すればよいだけでは?
投稿2021/11/02 08:43
総合スコア6759
0
ベストアンサー
ニューラルネットをそれぞれの場合で作り学習をする
こういう煩わしいこと避けるために強化学習が生まれたと理解しています。
環境データ(入力)→[強化学習がスコアの最大化を図る]→スコアが最大の行動を選択(出力)
というのが強化学習の根底にあります。めんどくさい計算をすべて「スコアの最大化を図る」にぶっ込むわけです。一番早いのは、望ましくない行動をしたときに、スコアに罰則を加えることです。
「株を買う」「株を売る」「なにもしない」を設定して,株を買っている状態の時は,「株を売る」or「なにもしない(保持)」.反対に株を持っていないときは,「買う」or「なにもしない」
株価に対して強化学習を使うのが良いかはともかく、素直に実装するなら、
- 損をしたらスコア減
- 得をしたらスコア増
が自然です。もし、禁止事項を加えるのであれば、
- 望ましくない行動を選択したときに、スコア減
これを加えるだけです。もし思うように動いてくれなければ、適当なさじ加減でスコアの減少量を増やしてあげる(罰則を強くする)と望ましくない行動は減ります。
投稿2021/11/02 21:35
編集2021/11/02 21:36退会済みユーザー
総合スコア0
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2021/11/03 11:59 編集
2021/11/05 05:08
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/11/03 00:57