強化学習のrewardについてです。

keras-rlを用いて自作した環境の深層強化学習（DQN）を行なっています。エピソード毎のrewardの変化をプロットしていったのですが、環境の設定によっては以下の様に後半大きく下がってしまったりします。

この様な事はなぜ起こるのでしょうか？Q関数は報酬が多くなる様に更新されていくはずですよね？結果が悪くなっていくのは何故でしょうか？

行動規範の内容に同意します

回答2件

ベストアンサー

強化学習なので、何かの環境を与えた時のアクションをモデルからもらえるはずです。

報酬が下がってしまう時にどのようなアクションを取っているのか、調べましたか？

残念ながら今の情報だけからでは推測することはできません。

あたりさわりのない憶測をするのであれば、何かの局所解に落ちてしまったということが考えられます。

具体的な問題の性質を検討することなく直すのであれば、
Dropout層を入れたり、破棄する割合を高める
か
学習率を小さくする
ことが候補に上がります。

投稿2018/05/13 14:14

mkgrei

総合スコア8562

Hayato1201

2018/05/17 13:14

参考にさせていただきました！

行動規範の内容に同意します

新しい機械学習には詳しくありませんが旧世代のものを学んだものとして意見させてもらいます。

パラメータの与え方によって学習結果が大きく変わるのは当然です。そもそも学習対象の持つ（であろう）規則性と学習方法のマッチングがとれていないならば学習がうまくいかないことも多々ありえます。学習対象の性質が与えられていない以上、具体的な指摘を求めても無理があります。

**「機械学習を用いれば何でもかんでも規則性をゼロから簡単に発見できる。」**と思われているなら相当な勘違いです。それが成り立つならば宝くじなりギャンブルで幾らでも儲けを出すことができます。

そもそも規則性が存在しない、または観測しうる情報からは規則性を導き出すことが不可能な事象ということもありえます。（測定資機材の精度限界等）

また、機械学習による自動処理といっても、事前パラメータ設定が必要な場合も多々あります。「規則性を発見していたわけではなく、隠れパラメータで「事後」手動調整して反復試行していただけだった。」というケースも見てきました。これはかなり酷いケースです。事前に取り決めるべきパラメータを事後に後出しジャンケン式に選択するというものですから表面上だけ学習が成功しているように見えます。もちろんこれは技術的に価値のあるものではなく、単に取り決め事の欠陥に過ぎないものです。現在のコンピュータの性能があればこのようなことも容易に起こりえます。

私は以前、この後出しジャンケンの仕組みを使ってビジネスをしようと持ち掛けられたためこの世界から退きました。これでビジネスが成立するならば技術ではない別の視点（前述の通り「取り決め事の欠陥」とか「ブラックマネーの関与」等）で確認をするくらいです。

投稿2018/05/13 12:14