質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

強化学習

強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

解決済

2回答

863閲覧

深層強化学習で禁止行動を設ける

hiragaga

総合スコア11

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

強化学習

強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

0グッド

0クリップ

投稿2021/11/02 08:34

前提・実現したいこと

深層強化学習で禁止行動を作成したいのですが,やり方がわかりません.
具体的には,株の売買をしたくて,3種類の行動として「株を買う」「株を売る」「なにもしない」を設定して,株を買っている状態の時は,「株を売る」or「なにもしない(保持)」.反対に株を持っていないときは,「買う」or「なにもしない」のようにしたいです.

今のところの考えとしては,ニューラルネットをそれぞれの場合で作り学習をするのかなと思っています.

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

結果の出力を抑制するのではなく、出力された結果に対して実際に行動を起こすための条件式を設定すればよいだけでは?

投稿2021/11/02 08:43

mather

総合スコア6753

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hiragaga

2021/11/03 00:57

回答いただきありがとうございます. 強化学習に対して理解が乏しい部分があり申し訳ないのですが, 出力された最大のQ値があっているか?について,更新式を利用してニューラルネットを更新していくのに,違う行動を選択するのは良くない(適切に学習が進まない)のかな?と思ったのですが,どう思いますか?
guest

0

ベストアンサー

ニューラルネットをそれぞれの場合で作り学習をする

こういう煩わしいこと避けるために強化学習が生まれたと理解しています。

環境データ(入力)→[強化学習がスコアの最大化を図る]→スコアが最大の行動を選択(出力)

というのが強化学習の根底にあります。めんどくさい計算をすべて「スコアの最大化を図る」にぶっ込むわけです。一番早いのは、望ましくない行動をしたときに、スコアに罰則を加えることです。

「株を買う」「株を売る」「なにもしない」を設定して,株を買っている状態の時は,「株を売る」or「なにもしない(保持)」.反対に株を持っていないときは,「買う」or「なにもしない」

株価に対して強化学習を使うのが良いかはともかく、素直に実装するなら、

  • 損をしたらスコア減
  • 得をしたらスコア増

が自然です。もし、禁止事項を加えるのであれば、

  • 望ましくない行動を選択したときに、スコア減

これを加えるだけです。もし思うように動いてくれなければ、適当なさじ加減でスコアの減少量を増やしてあげる(罰則を強くする)と望ましくない行動は減ります。

投稿2021/11/02 21:35

編集2021/11/02 21:36
退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hiragaga

2021/11/03 00:46

回答ありがとうございます. 追加で3点質問してもよろしいでしょうか. 1つ目が,「望ましくない行動を選択したときに、スコア減」について,環境クラスで望ましくない行動を選択したときに、スコア減して行動しないということであってますか? 2つ目は,「望ましくない行動を選択したときに、スコア減」について報酬のclippingで与える報酬を-1,0,1とかにしてた場合はスコアの減少量とか増やせないですか? 3つ目は,回答者さんに答えていただいた回答以外に出力層でスコア最大の行動を選択する場面で,前回の状態を考慮して条件式で禁止行動以外の最大のスコアの行動を選択する.だと適切に学習されないですか?
退会済みユーザー

退会済みユーザー

2021/11/03 11:59 編集

> 「望ましくない行動を選択したときに、スコア減」について,環境クラスで望ましくない行動を選択したときに、スコア減して行動しないということであってますか? そういうイメージです。スコア減となる行動を選んだ時にスコアを下げてしまう処理をします。行動をするかしないかは強化学習のプログラムが決めることなので、人間にできることは「選ぶと損するよ」と設定してやるまでです。株価ではないかもしれませんが、短期的に破損するような選択肢を意図的に強化学習が選ぶこともあり得る話です。チェスや将棋なら敢えて駒を捨てるようなこともありえますよね? > 報酬のclippingで与える報酬を-1,0,1とかにしてた場合はスコアの減少量とか増やせないですか? スコアの増減量を制限してしまうのがclippingと思いますので、それを意図的に外すようなこともをしたい、というように見えます。実装方法によると思いますが、例えば〇回学習した後はclippingを外すは(スコアの増減量を変数にしてしまえば)できると思います。 > 前回の状態を考慮して条件式で禁止行動以外の最大のスコアの行動を選択する.だと適切に学習されないですか? 前回の選択肢すら環境の一部と捉えれば自然なことのようにも思います。やってみないと分かりませんが、恐らく前に何を入力をしたかのようなことは「こまけぇこたぁいいんだよ!!」と飲み込んでしまうのが強化学習と思います。強化学習も深層学習も柔軟すぎる技術なので、一般的な回答でズバッと予言するようなものは「超大雑把な回答」以外では難しいと思います。
hiragaga

2021/11/05 05:08

回答いただきありがとうございます. 大変参考になります.
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問