前提・実現したいこと
障害物問題(エージェントにとって不完全知覚状態)の課題を強化学習で学習させたいです。
ソースはこちらです。(とりあえず迷路問題になっています。)
https://github.com/gallardo22/DQN-chainer
Profit Sharingを用いて、負の報酬が得られる状況においるルールは環境が変わっても再利用できる可能性があるか調べたいのですが、実装方法が分からず困っています。
また、現段階での構想はCNNの出力(行動価値)を
・負の報酬を獲得するかどうか判断するネットワーク(負の予測ネット(仮))
・負の予測ネット(仮)が負を予測した時の行動価値ネットワーク(負の行動ネット(仮))
・負ではないと予測した時の行動価値ネットワーク(負ではない行動ネット(仮))
の3つに分けて処理することを考えています。
具体的なコードの書き方などを教えたいただけると幸いです。
###実行方法
processingでmaze2.pdeを実行すると中央に「start」と書かれた待機画面が出力されます。
この画面を待機させたまま、ターミナルからdqn_new.pyを実行します。
そこからはpyautoguiによって自動で学習が開始されます。
※注意:start待機画面に他のウィンドウが被っていると実行されません。ターミナルウィンドウを小さくするなど工夫してください。
発生している問題・エラーメッセージ
上記の通りです
該当のソースコード
上記のgithubにあります。
補足情報(FW/ツールのバージョンなど)
Python:2.7+
chainer:2.1.0
cupy:cupy-cuda90
PyQt4
processing:3.4.3
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2019/01/31 10:33
2019/01/31 11:13
退会済みユーザー
2019/01/31 11:31
2019/01/31 11:41
退会済みユーザー
2019/02/01 08:30 編集
2019/02/02 16:54
退会済みユーザー
2019/02/03 06:17
退会済みユーザー
2019/02/03 12:08