深層強化学習のモデルのバリデーションについて

やや漠然として質問で恐縮なのですが、質問させてください。
ある営業のモデルをFitted Q Networkで強化学習を用いて作成しました。

行動：営業の人の行動パターン
状態：顧客の購買マインドセット
報酬：顧客の購買マインドセットの変化に応じたスコア

のようなモデルを作成しました。
収束はある程度していると思うのですが、強化学習で、このモデルの妥当性を
検証するために、収束を見る以外の方法はあるでしょうか。

本などを読むとゲームの例が目立っており、実際にゲームをして、自分が
負けないと、強いモデルができたかどうかが分からないように認識しております。

元々、営業の人にこのような顧客ステージであれば、このような
行動をすればよいとサジェスチョンをしたいのですが、収束では分かりにくく、
例えば、機械あり学習でいうところのaccuracyのような具体的な指標が欲しいような
気がしています。

googleや論文などで検索しているのですが、あまり良いヒットがないように思われます。
何か、妙案をお持ちの方はいらっしゃるでしょうか。

漠然とした質問で恐縮ですが、何卒、よろしくお願い申し上げます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだ回答がついていません

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問