Keras-RL

RSS
  • 解決済

    回答
    2

    強化学習のrewardについてです。

    keras-rlを用いて自作した環境の深層強化学習(DQN)を行なっています。エピソード毎のrewardの変化をプロットしていったのですが、環境の設定によっては以下の様に後半大きく下がってしまったりします。 この様な事はなぜ起こるのでしょうか?Q関数は報酬が多くなる様に更新されていくはずですよね?結果が悪くなっていくのは何故でしょうか?

    • 0評価
    • 111PV
    Hayato1201 Hayato1201 2ヶ月前に ベストアンサー
  • 受付中

    回答
    0

    kerns-rlのmemoryについてです。

    自作で強化学習の環境を作り、keras-rlでDQNの実装をしているのですが、memory.actions.dataに格納されているアクションはそれぞれのステップでとったアクションを格納しているわけでは無いのでしょうか?試しに環境のstep関数の中で毎回の引数になっているactionを配列に格納して、memory.actions.dataと比較したところ、所

    • 0評価
    • 68PV
    teratailが2ヶ月前に アップデート
  • 受付中

    回答
    1

    強化学習(深層強化学習)のrewardの変化についてです。(keras-rl使用)

    強化学習で解くための環境を自作してそれをDQNのフレームワーク(keras-rl)を用いてrewardの変化を見て行っているのですが、それについて質問です。 エピソードごとのrewardをグラフにするとだいたいいつも以下の様になります。 毎回序盤で一気に下がってその後上がるといった形になります。ここで下がっているポイントはkeras-rlでいう、

    • 0評価
    • 102PV
    Hayato1201 Hayato1201 2ヶ月前に コメント
  • 受付中

    回答
    0

    kerns-rlのepisode rewardについてです。

    kerns-rlで、エピソードごとのrewardはどの様にすれば確認できるのでしょうか? memory.rewards.dataにステップごとのrewardが格納されていますが、エピソードごとのrewardを確認したい場合はどうすれば良いでしょうか? testを実行した際に以下の様に表示されますが、ここでのrewardはエピソードを通してのrewardの合計

    • 0評価
    • 64PV
    teratailが2ヶ月前に アップデート
  • 受付中

    回答
    0

    openAI gymの自作環境についてです。

    openAI gymのgym.core.Envを継承して自分で環境を作っています。それをkeras-rlを用いて強化学習の実装をしようと思っています。 環境のクラスを仮にHoge(gym.core.Env)としてそれがうまく動くかインスタンス化だけしました。すると以下の様な警告が出ました。 /usr/local/lib/python3.6/site-pa

    • 0評価
    • 505PV
    teratailが3ヶ月前に アップデート
  • 1

タグ情報

  • あなたの順位

    -

  • タグ登録者数

    2

  • 総質問数

    5

  • 今週の質問数

    0

関連するタグ

Keras-RLタグのよく見られている質問

思考するエンジニアのためのQ&Aサイト「teratail」について詳しく知る