質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.47%
強化学習

強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

0回答

568閲覧

深層強化学習のモデルのバリデーションについて

onosan

総合スコア59

強化学習

強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

1クリップ

投稿2021/11/12 05:26

編集2021/11/15 00:52

やや漠然として質問で恐縮なのですが、質問させてください。
ある営業のモデルをFitted Q Networkで強化学習を用いて作成しました。

行動:営業の人の行動パターン
状態:顧客の購買マインドセット
報酬:顧客の購買マインドセットの変化に応じたスコア

のようなモデルを作成しました。
収束はある程度していると思うのですが、強化学習で、このモデルの妥当性を
検証するために、収束を見る以外の方法はあるでしょうか。

本などを読むとゲームの例が目立っており、実際にゲームをして、自分が
負けないと、強いモデルができたかどうかが分からないように認識しております。

元々、営業の人にこのような顧客ステージであれば、このような
行動をすればよいとサジェスチョンをしたいのですが、収束では分かりにくく、
例えば、機械あり学習でいうところのaccuracyのような具体的な指標が欲しいような
気がしています。

googleや論文などで検索しているのですが、あまり良いヒットがないように思われます。
何か、妙案をお持ちの方はいらっしゃるでしょうか。

漠然とした質問で恐縮ですが、何卒、よろしくお願い申し上げます。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問