強化学習のテスト環境について

質問内容

強化学習について勉強している中で気になることがあったのでこちらに質問させていただきます。
強化学習の適用例として、CartPoleやスーパーマリオなどの様々なゲームへの適用例が見受けられますが、
それらは全て学習環境とテスト環境が同一のものであると思われます。
深層学習での画像のClassificationでは学習用画像とは別にテスト画像を用意し、テスト画像に対する性能でAIの評価を行うのが一般的と認識していますが、強化学習ではこのような評価は行わず学習時と同一環境で評価するのが一般的なのでしょうか？(マリオの例で言うと、1-1ステージの環境で学習したAIマリオを1-2ステージで評価するといった感じです。そもそも強化学習とは学習した環境下でしか機能しないため、異なる環境で評価するのは的外れなことになるのでしょうか？)

行動規範の内容に同意します

回答1件

ベストアンサー

強化学習の環境と、深層学習のデータは、あまり同一視はできないと思います。
強化学習は基本的には、環境は与えられたもので、状態を持つものの、大枠（ゲームで言うところのルール）は不変なものです。一方、質問者様の言われるような、環境が変化する強化学習は、先端分野の１つとして研究されているようです。「強化学習環境変化」でググると関連の記述がたくさん得られます。

例: メタ強化学習を用いたダイナミクスの変化への適応
強化学習を実世界の問題に応用する上では、まだ多くの課題が残されています。その 1 つとして、環境の変化に脆弱であるという課題が挙げられます。・・・。この課題に対するアプローチの 1 つとして、・・・

投稿2021/07/13 13:02