keras-rlを用いて自作した環境の深層強化学習(DQN)を行なっています。エピソード毎のrewardの変化をプロットしていったのですが、環境の設定によっては以下の様に後半大きく下がってしまったりします。
この様な事はなぜ起こるのでしょうか?Q関数は報酬が多くなる様に更新されていくはずですよね?結果が悪くなっていくのは何故でしょうか?

回答2件
あなたの回答
tips
プレビュー
OpenAI Gymは、強化学習を開発・強化するためのシミュレーション環境です。強化学習における実験や評価環境などを標準化し提供することを目的としています。さらに、結果をアップロードしたり、他の人の実行結果や実装を見ることも可能です。
強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。
Keras-RLは、Kerasを用いてDQNなどの深層強化学習アルゴリズムを実装したライブラリです。学習する強化学習の環境をOpenAI Gymのインターフェースに準じて作成することが必要です。
機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。
OpenAI Gymは、強化学習を開発・強化するためのシミュレーション環境です。強化学習における実験や評価環境などを標準化し提供することを目的としています。さらに、結果をアップロードしたり、他の人の実行結果や実装を見ることも可能です。
強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。
Keras-RLは、Kerasを用いてDQNなどの深層強化学習アルゴリズムを実装したライブラリです。学習する強化学習の環境をOpenAI Gymのインターフェースに準じて作成することが必要です。
機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。
0グッド
0クリップ
投稿2018/05/13 10:10
keras-rlを用いて自作した環境の深層強化学習(DQN)を行なっています。エピソード毎のrewardの変化をプロットしていったのですが、環境の設定によっては以下の様に後半大きく下がってしまったりします。
この様な事はなぜ起こるのでしょうか?Q関数は報酬が多くなる様に更新されていくはずですよね?結果が悪くなっていくのは何故でしょうか?
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答2件
0
ベストアンサー
強化学習なので、何かの環境を与えた時のアクションをモデルからもらえるはずです。
報酬が下がってしまう時にどのようなアクションを取っているのか、調べましたか?
残念ながら今の情報だけからでは推測することはできません。
あたりさわりのない憶測をするのであれば、何かの局所解に落ちてしまったということが考えられます。
具体的な問題の性質を検討することなく直すのであれば、
Dropout層を入れたり、破棄する割合を高める
か
学習率を小さくする
ことが候補に上がります。
投稿2018/05/13 14:14
総合スコア8562
0
パラメータの与え方によって学習結果が大きく変わるのは当然です。そもそも学習対象の持つ(であろう)規則性と学習方法のマッチングがとれていないならば学習がうまくいかないことも多々ありえます。学習対象の性質が与えられていない以上、具体的な指摘を求めても無理があります。
**「機械学習を用いれば何でもかんでも規則性をゼロから簡単に発見できる。」**と思われているなら相当な勘違いです。それが成り立つならば宝くじなりギャンブルで幾らでも儲けを出すことができます。
そもそも規則性が存在しない、または観測しうる情報からは規則性を導き出すことが不可能な事象ということもありえます。(測定資機材の精度限界等)
また、機械学習による自動処理といっても、事前パラメータ設定が必要な場合も多々あります。「規則性を発見していたわけではなく、隠れパラメータで「事後」手動調整して反復試行していただけだった。」というケースも見てきました。これはかなり酷いケースです。事前に取り決めるべきパラメータを事後に後出しジャンケン式に選択するというものですから表面上だけ学習が成功しているように見えます。もちろんこれは技術的に価値のあるものではなく、単に取り決め事の欠陥に過ぎないものです。現在のコンピュータの性能があればこのようなことも容易に起こりえます。
私は以前、この後出しジャンケンの仕組みを使ってビジネスをしようと持ち掛けられたためこの世界から退きました。これでビジネスが成立するならば技術ではない別の視点(前述の通り「取り決め事の欠陥」とか「ブラックマネーの関与」等)で確認をするくらいです。
投稿2018/05/13 12:14
総合スコア4853
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/05/17 13:14