自作で強化学習の環境を作り、keras-rlでDQNの実装をしているのですが、memory.actions.dataに格納されているアクションはそれぞれのステップでとったアクションを格納しているわけでは無いのでしょうか?試しに環境のstep関数の中で毎回の引数になっているactionを配列に格納して、memory.actions.dataと比較したところ、所々同じですが、値が違いました。何故この様なことが起きるのでしょうか?
あなたの回答
tips
プレビュー
投稿2018/04/30 05:37
編集2018/04/30 05:37自作で強化学習の環境を作り、keras-rlでDQNの実装をしているのですが、memory.actions.dataに格納されているアクションはそれぞれのステップでとったアクションを格納しているわけでは無いのでしょうか?試しに環境のstep関数の中で毎回の引数になっているactionを配列に格納して、memory.actions.dataと比較したところ、所々同じですが、値が違いました。何故この様なことが起きるのでしょうか?
あなたの回答
tips
プレビュー