質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
OpenAI Gym

OpenAI Gymは、強化学習を開発・強化するためのシミュレーション環境です。強化学習における実験や評価環境などを標準化し提供することを目的としています。さらに、結果をアップロードしたり、他の人の実行結果や実装を見ることも可能です。

強化学習

強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。

Keras-RL

Keras-RLは、Kerasを用いてDQNなどの深層強化学習アルゴリズムを実装したライブラリです。学習する強化学習の環境をOpenAI Gymのインターフェースに準じて作成することが必要です。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

解決済

2回答

4297閲覧

強化学習のrewardについてです。

Hayato1201

総合スコア220

OpenAI Gym

OpenAI Gymは、強化学習を開発・強化するためのシミュレーション環境です。強化学習における実験や評価環境などを標準化し提供することを目的としています。さらに、結果をアップロードしたり、他の人の実行結果や実装を見ることも可能です。

強化学習

強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。

Keras-RL

Keras-RLは、Kerasを用いてDQNなどの深層強化学習アルゴリズムを実装したライブラリです。学習する強化学習の環境をOpenAI Gymのインターフェースに準じて作成することが必要です。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

0グッド

0クリップ

投稿2018/05/13 10:10

keras-rlを用いて自作した環境の深層強化学習(DQN)を行なっています。エピソード毎のrewardの変化をプロットしていったのですが、環境の設定によっては以下の様に後半大きく下がってしまったりします。

イメージ説明
イメージ説明

この様な事はなぜ起こるのでしょうか?Q関数は報酬が多くなる様に更新されていくはずですよね?結果が悪くなっていくのは何故でしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

強化学習なので、何かの環境を与えた時のアクションをモデルからもらえるはずです。

報酬が下がってしまう時にどのようなアクションを取っているのか、調べましたか?

残念ながら今の情報だけからでは推測することはできません。

あたりさわりのない憶測をするのであれば、何かの局所解に落ちてしまったということが考えられます。

具体的な問題の性質を検討することなく直すのであれば、
Dropout層を入れたり、破棄する割合を高める

学習率を小さくする
ことが候補に上がります。

投稿2018/05/13 14:14

mkgrei

総合スコア8560

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Hayato1201

2018/05/17 13:14

参考にさせていただきました!
guest

0

新しい機械学習には詳しくありませんが旧世代のものを学んだものとして意見させてもらいます。

パラメータの与え方によって学習結果が大きく変わるのは当然です。そもそも学習対象の持つ(であろう)規則性と学習方法のマッチングがとれていないならば学習がうまくいかないことも多々ありえます。学習対象の性質が与えられていない以上、具体的な指摘を求めても無理があります。

**「機械学習を用いれば何でもかんでも規則性をゼロから簡単に発見できる。」**と思われているなら相当な勘違いです。それが成り立つならば宝くじなりギャンブルで幾らでも儲けを出すことができます。

そもそも規則性が存在しない、または観測しうる情報からは規則性を導き出すことが不可能な事象ということもありえます。(測定資機材の精度限界等)

また、機械学習による自動処理といっても、事前パラメータ設定が必要な場合も多々あります。「規則性を発見していたわけではなく、隠れパラメータで「事後」手動調整して反復試行していただけだった。」というケースも見てきました。これはかなり酷いケースです。事前に取り決めるべきパラメータを事後に後出しジャンケン式に選択するというものですから表面上だけ学習が成功しているように見えます。もちろんこれは技術的に価値のあるものではなく、単に取り決め事の欠陥に過ぎないものです。現在のコンピュータの性能があればこのようなことも容易に起こりえます。

私は以前、この後出しジャンケンの仕組みを使ってビジネスをしようと持ち掛けられたためこの世界から退きました。これでビジネスが成立するならば技術ではない別の視点(前述の通り「取り決め事の欠陥」とか「ブラックマネーの関与」等)で確認をするくらいです。

投稿2018/05/13 12:14

HogeAnimalLover

総合スコア4830

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問