chainerで負の報酬を重視した構造のCNNを実現したい。

前提・実現したいこと

DQNにおけるCNNの出力の処理を、

状況判断：負の報酬を獲得する可能性があるかどうかを判断する処理
↓
行動価値①：負の報酬を獲得する可能性がある状況
行動価値②：それ以外の状況

に分けて実装したいです。

アイデアがある方お願いします。

該当のソースコード

https://github.com/gallardo22/DQN-chainer

補足情報（FW/ツールのバージョンなど）

Python:2.7+
chainer:2.1.0
cupy:cupy-cuda90
PyQt4

puroko3

2019/01/23 16:19 編集

そもそもdqnの出力自体が質問の通りになっているような気がするのですが、そういう事ではないのでしょうか？ dqnの出力は-1～1にスケールされますが、 0より大きければ負の報酬が与えられる可能性が小さく 0より小さければ負の報酬が与えられる可能性の方が大きいと捉える事が出来ます。負の報酬をもらう確率 = -0.1 = 55% 0=50% 0.1 = 45%

退会済みユーザー

2019/01/24 09:04

ご返信ありがとうございます。お答え頂いた内容と私の実現したいことは少し異なるかもしれません。説明不足で申し訳ありません。最終的な目的としては、負の報酬が得られる状況におけるルールが変わっても再利用できる可能性があるか調査するのが目的となります。例えば、状況判断を表すニューロンの出力が負の報酬を獲得する可能性があることを示す場合を適当な「１」などとおいて、「１」の場合は負の報酬を獲得する可能性がある状況での行動価値を表す行動価値に対応するニューロンの出力が表す行動価値を用いてε-greedy法にて行動を選択する。それに対して、状況判断を表すニューロンの出力が負の報酬を獲得する可能性がないことを表す場合は「０」などとおいて（以下略）といった感じです。 githubの方も更新しましたのでお時間ありましたら覗いていただけると幸いです。

puroko3

2019/01/25 09:45 編集

例えば、負の報酬を獲得するかどうかを判断するネットワークと(以下負の予測ネット)負の予測ネットが負を予測した時の行動価値ネットワーク(以下負の行動ネット)と負ではない予測した時の行動価値ネットワークを(以下負じゃない行動ネット)をの3つのネットワークを用意して、負の予測ネットが負と予測したら、負の行動ネットの行動価値(出力)を参照に行動して、負の予測ネットが負ではないと予測したら負じゃない行動ネットの行動価値(出力)を参照にして行動する(ネットワークを3つ用意したのはあくまでも例としてです)。こういう事でしょうか？ >最終的な目的としては、負の報酬が得られる状況におけるルールが変わっても再利用できる可能性があるか調査するのが目的となります。コードをざっと見た感じ、迷路ゲームを学習させたい感じでしょうか？その報酬が得られる状況が変わるというルール及びゲームの内容を具体的に質問に追記して頂いた方が、回答が得られやすいと思います。コードを追いかけるのはしんどいので...

退会済みユーザー

2019/01/25 16:20

ご返信ありがとうございます。・ご説明の前半部分についてまさにおっしゃる通りで、判断とそれに対する行動価値の処理を担うネットワークの3つで考えています。実際にプログラムにするとどのような形にした方が良いでしょうか？・後半部分について :迷路ゲームを学習させます。また、任意の位置に立方体を置いて、疑似的な障害物問題に対しても学習させたいです。 :再び説明不足で申し訳ないのですが、ルールというのはゲーム内のルールのことではなく、profit sharing(強化学習の学習方法)における、行動と観測を対にしたもののことをルールと呼ぶことを指します。

puroko3

2019/01/25 17:01

つまり何をするかの考えや理論は固まってるけど、それをソースコードして落とし込むにはどうすればいいのかという質問でしょうか？てっきり理論方面の質問かと思っていました。であればchainerで書いた事ない私では力を貸す事は出来なさそうです...申し訳ない。

退会済みユーザー

2019/01/26 00:11

ご返信ありがとうございます。おっしゃる通りです。実装の設計は考えましたが、コードに落とし込むことが出来ていないという現状です。ご相談ありがとうございました。