前提・実現したいこと
DQNを利用してゴールの場所をランダムに変更してその特定の場所へたどり着けるようなモデルを作りたいです。
しかしながら何度学習を続けても全く報酬が増えません。
今回はDRQNを利用し学習を行いました。
gymの環境情報
- 50x50マスの絵の書かれたMAP上を上下左右にエージェントが移動する
- エージェントにはゴールの座標(2,)エージェントの周辺(5,5)の画像のピクセルデータが合わせて(27,)の形で入力される
- 300stepたったら強制終了目標座標到達で終了&報酬+100(もしかして300stepで終了だからどの行動が根拠で高い報酬につながったかわからないから学習が進まないと思い50stepにしたもののだめでした)
- 毎ステップ報酬-1
エージェントには自分の周りの風景で居場所を認識し、ゴールの座標の方へ移動する力が求められる。
補足情報(FW/ツールのバージョンなど)
keras-rlを利用して学習 openAIgymで環境を自作
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。