起こっている現象
以下のような条件でDQNの学習を試しています。
- 毎フレームにおける行動の選択肢は7つ
- ゲーム終了時、ゲーム中に得られた得点を計算し、ある値以上ならば報酬 = 1、
ある値未満ならば報酬 = -1とする(それ以外の報酬はなし)
学習中にDQNの出力である行動価値関数[q1, q2, q3, q4, q5, q6, q7]を確認していたところ、epochを重ねるごとにq1~q7の値が増大し続けており、1000epochあたりではそれぞれのqが数百程度の値となっていました。
質問内容
-
1回のゲーム中では得られる報酬は-1か1であるのに、q1~q7の値がゲーム中に得られる報酬より大きくなることは普通に起こることでしょうか。(割引率などを掛けているので、qは1未満になっているべきなんじゃないか?と考えています。)
-
環境の設定が難しすぎると、上記の現象のようにqが発散するといったことが起こってしまうのでしょうか。
DQNについて認識違いしている箇所もあるかもしれませんが、よろしくお願い致します。
あなたの回答
tips
プレビュー