前提・実現したいこと
DQNにおけるCNNの出力の処理を、
状況判断:負の報酬を獲得する可能性があるかどうかを判断する処理
↓
行動価値①:負の報酬を獲得する可能性がある状況
行動価値②:それ以外の状況
に分けて実装したいです。
アイデアがある方お願いします。
該当のソースコード
https://github.com/gallardo22/DQN-chainer
補足情報(FW/ツールのバージョンなど)
Python:2.7+
chainer:2.1.0
cupy:cupy-cuda90
PyQt4
あなたの回答
tips
プレビュー