強化学習

RSS
  • 解決済

    回答
    1

    強化学習のon-policyとoff-policyについてです。

    強化学習にはon-policyとoff-policyがあり、方策を直接最適化するのがon-policyだ、といった様な記述がありますがこれは具体的にどういう事でしょうか? 例えば、DQNなどでQ学習を行う際には、まずエージェントがランダムに行動し、そこでサンプリングされた状態と行動のサンプルを用いてモデルを学習させていきますが、policy gradient

    • 0評価
    • 63PV
    Hayato1201 Hayato1201 4日前に コメント
  • 解決済

    回答
    1

    強化学習 本番での計算量

    強化学習の初心者です。 あるオリジナルボードゲーム(囲碁みたいに探索空間が非常に広い)で、盤面ごとの評価値を使ったminimax法を用いようと考えています。 強化学習ならば人間だけではできない最適な評価値を返せるようになると考え、評価関数にQ学習を用いようと考えています。 評価関数は、評価値を数秒で返せるようにしたいです。 強化学習は、学習時には非常

    • 0評価
    • 49PV
    programming programming 5日前に ベストアンサー
  • 解決済

    回答
    2

    強化学習のrewardについてです。

    keras-rlを用いて自作した環境の深層強化学習(DQN)を行なっています。エピソード毎のrewardの変化をプロットしていったのですが、環境の設定によっては以下の様に後半大きく下がってしまったりします。 この様な事はなぜ起こるのでしょうか?Q関数は報酬が多くなる様に更新されていくはずですよね?結果が悪くなっていくのは何故でしょうか?

    • 0評価
    • 60PV
    Hayato1201 Hayato1201 1週間前に ベストアンサー
  • 受付中

    回答
    0

    kerns-rlのmemoryについてです。

    自作で強化学習の環境を作り、keras-rlでDQNの実装をしているのですが、memory.actions.dataに格納されているアクションはそれぞれのステップでとったアクションを格納しているわけでは無いのでしょうか?試しに環境のstep関数の中で毎回の引数になっているactionを配列に格納して、memory.actions.dataと比較したところ、所

    • 0評価
    • 42PV
    teratailが3週間前に アップデート
  • 解決済

    回答
    1

    強化学習(あるいは、入出力の関係が予測困難なプログラム)のテスト手法を教えて下さい

    強化学習(あるいは、入出力の関係が予測困難なプログラム)のテスト手法を教えて下さい 現在、強化学習の一手法であるREINFORCEをフルスクラッチで実装しています。 一応動く様にはなったものの、細かいバグがまだ多数あると思われます。 そこで、一度きちんとテストしたいのですが、単体テストはある程度出来たものの、結合テスト以上がどうすれば良いか分かりません

    • 0評価
    • 64PV
    rtr1950x rtr1950x 3週間前に ベストアンサー
  • 受付中

    回答
    1

    強化学習(深層強化学習)のrewardの変化についてです。(keras-rl使用)

    強化学習で解くための環境を自作してそれをDQNのフレームワーク(keras-rl)を用いてrewardの変化を見て行っているのですが、それについて質問です。 エピソードごとのrewardをグラフにするとだいたいいつも以下の様になります。 毎回序盤で一気に下がってその後上がるといった形になります。ここで下がっているポイントはkeras-rlでいう、

    • 0評価
    • 57PV
    Hayato1201 Hayato1201 4週間前に コメント
  • 解決済

    回答
    1

    強化学習のValued-BasedとPolicy-Basedについてです。

    Valued-BasedとPolicy-Based、これらのアルゴリズム的違いは分かるのですが、どの様にしてこれらを使い分ければ良いでしょう?こういった問題を解きたい時にはValued-Basedで、この様な時はPolicy-Based、だ、といったものはあるのでしょうか?Valued-BasedであるQ学習のQをニューラルネットワークで同定するDQN、Po

    • 0評価
    • 81PV
    Hayato1201 Hayato1201 4週間前に コメント
  • 受付中

    回答
    0

    kerns-rlのepisode rewardについてです。

    kerns-rlで、エピソードごとのrewardはどの様にすれば確認できるのでしょうか? memory.rewards.dataにステップごとのrewardが格納されていますが、エピソードごとのrewardを確認したい場合はどうすれば良いでしょうか? testを実行した際に以下の様に表示されますが、ここでのrewardはエピソードを通してのrewardの合計

    • 0評価
    • 35PV
    teratailが4週間前に アップデート
  • 受付中

    回答
    0

    openAI gymの自作環境についてです。

    openAI gymのgym.core.Envを継承して自分で環境を作っています。それをkeras-rlを用いて強化学習の実装をしようと思っています。 環境のクラスを仮にHoge(gym.core.Env)としてそれがうまく動くかインスタンス化だけしました。すると以下の様な警告が出ました。 /usr/local/lib/python3.6/site-pa

    • 0評価
    • 206PV
    teratailが1ヶ月前に アップデート
  • 解決済

    回答
    1

    openAI gymのstep関数についてです。

    http://futurismo.biz/archives/6615このサイトや、https://qiita.com/inoory/items/e63ade6f21766c7c2393このサイトの様にgym.core.Envを使って新しい環境を作り、keras-rlで学習させたいのですが、いくつか質問させてください。 stepで返すstateとして、5行

    • 0評価
    • 118PV
    Hayato1201 Hayato1201 1ヶ月前に ベストアンサー
  • 1

タグ情報

  • あなたの順位

    -

  • タグ登録者数

    1

  • 総質問数

    10

  • 今週の質問数

    2

関連するタグ

強化学習タグのよく見られている質問

思考するエンジニアのためのQ&Aサイト「teratail」について詳しく知る