前提・実現したいこと
chainerで書かれたDeep Q-Networkのプログラムの学習方法をQ LearningからProfit Sharingにしたいです。
プログラムは下記のリンクにあります。
processingで作成した3D迷路をpyautoguiを利用して自動学習させるプログラムです。
該当のソースコードのリンク
https://github.com/gallardo22/DQN-chainer
試したこと
価値の更新式を変えるなどが考えられると思ったのですがプログラムの知識がなく、実装できていません。
コードに落とし込める方ご協力お願いします。
補足情報(FW/ツールのバージョンなど)
processing 3.4
python anaconda3-4.4.0
numpy 1.15.1
chainer 5.0.0(ニューラルネットワーク動かすためのもの)
pyautogui 0.9.38(キーボード操作、ディスプレイ内の画像検索するため)
あなたの回答
tips
プレビュー