質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

OpenAI Gym

OpenAI Gymは、強化学習を開発・強化するためのシミュレーション環境です。強化学習における実験や評価環境などを標準化し提供することを目的としています。さらに、結果をアップロードしたり、他の人の実行結果や実装を見ることも可能です。

強化学習

強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

3785閲覧

openAI gymのstep関数についてです。

Hayato1201

総合スコア220

Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

OpenAI Gym

OpenAI Gymは、強化学習を開発・強化するためのシミュレーション環境です。強化学習における実験や評価環境などを標準化し提供することを目的としています。さらに、結果をアップロードしたり、他の人の実行結果や実装を見ることも可能です。

強化学習

強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2018/03/15 02:56

編集2018/03/21 03:08

http://futurismo.biz/archives/6615このサイトや、https://qiita.com/inoory/items/e63ade6f21766c7c2393このサイトの様にgym.core.Envを使って新しい環境を作り、keras-rlで学習させたいのですが、いくつか質問させてください。

stepで返すstateとして、5行3列の配列、

[[1. 1. 0.]
[1. 1. 0.]
[0. 0. 0.]
[0. 0. 0.]
[0. 0. 0.]]

この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstateとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか?ちなみにこれは1か0しかとりません。例えば(2,5,3)だとしたら、

[[1. 1. 0.]
[1. 1. 0.]
[0. 0. 0.]
[0. 0. 0.]
[0. 0. 0.]]

[[0. 0. 0.]
[0. 0. 0.]
[0. 0. 0.]
[0. 0. 0.]
[0. 0. 0.]]

これが、actionによって次のstateとして、

[[1. 1. 1.]
[1. 1. 1.]
[1. 1. 1.]
[0. 0. 0.]
[0. 0. 0.]]

[[1. 0. 0.]
[1. 0. 0.]
[1. 0. 0.]
[1. 0. 0.]
[1. 0. 0.]]

になったりという事です。これをどうすればうまく表すことができるでしょうか?
以上のサイトだと、

Python

1high = np.array([1.0, 1.0]) # 観測空間(state)の次元 (位置と速度の2次元) とそれらの最大値 2 self.observation_space = gym.spaces.Box(low=-high, high=high) # 最小値は、最大値のマイナスがけ

このように示されていますが、これは速度と位置だけをstateとしてstepの最後でreturnしています。このような行列をreturnしたいのですが、どうすればいいのか思いついきません。。。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
追記

少し環境が変わり、例えば0〜1の実数値をとる要素の配列、例えば
[1,0.52,0.26,0.08,0]
というような要素が5個ある配列が11個ある設定だとすると、

Python

1self._shape = (11, 5) 2 self.observation_space = gym.spaces.Box(low=0, 3 high=1, 4 shape=self._shape)

のようになるのでしょうか?
また、その際step関数としてreturnする際はどのような形で書けば良いでしょうか?
以下のような形で5×11のリストを作って行き、それを

Python

1arr = [] 2arr.append([1,0.52,0.26,0.08,0]) 3arr.append([0,0,0.2,0.18,1]) 4     ・ 5     ・ 6     ・ 7 8return arr, reward, done, {}

のようにできるのでしょうか?

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
追記

すみません、書き方が悪かったですが、追記ではもし0,1だけを取るのではなく各要素が0~1の実数値をとるならという事です!また状態の遷移に関して省略していました。
それだったら

Pyhton

1arr = np.array(arr) 2arr[arr>0.5] = 1 3arr[arr<=0.5] = 0

この部分は最後、それぞれのアクションに対して

Pyhton

1arr = np.array(arr) 2return arr, reward, done, {}

のような形でreturnしても良いですよね?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mkgrei

2018/03/18 19:27

例えば(2,2,2)の場合はどうなりますか?次元が上がっても最悪、シリアル化できます。(l,m,n)をl*m*n成分のベクトルに。
Hayato1201

2018/03/19 00:29

以上のような5×3の行列しかないので(2,5,3)にはなっても(2,2,2)などにはならない予定です。(5,3)のものがいくつかある感じにしたいてす。実際は(11,5,3)で実装したいです。l*m*n成分のベクトルとはどういう事でしょうか??それだとBoxの部分はどう表されるのでしょうか?
mkgrei

2018/03/19 08:33

すべての要素が独立に0、1を取れるのであれば、actionの数は2**(l*m*n)になります。全部で「lかけるmかけるn」個の要素があるので、それを1次元に並び替えることができます。
guest

回答1

0

ベストアンサー

actionのルールがよくわからないので、答え難いのですが、observation_spaceは以下のようになります。
整数値も強制しています。

python

1 self._shape = (11, 5, 3) 2 self.observation_space = gym.spaces.Box(low=0, 3 high=1, 4 shape=self._shape, 5 dtype=int)

おまけ
環境に依存して取れるactionを動的に変更する方法(の参考になるかも)。
https://stackoverflow.com/questions/45001361/open-ai-enviroment-with-changing-action-space-after-each-step


編集後について

python

1 self._shape = (11, 5) 2 self.observation_space = gym.spaces.Box(low=0, 3 high=1, 4 shape=self._shape)

は正しいです。

ステップ関数はステップの場所というパラメータが1つあります。

python

1def step(x, t=0.5): 2 if x > 0.5: 3 return 1 4 else: 5 return 0 6np_step = np.vectorize(step)

numpy.arrayを一気に操作したいのなら上のような関数を作ると見通しがいいです。

python

1arr = np.array(arr) 2arr[arr>0.5] = 1 3arr[arr<=0.5] = 0

でもできますが。
いろいろ書く方法があります。

サンプルであるせいかもしれませんが、状態が無から生成されているようになっています。
強化学習は「前状態」→「操作」→「後状態」、
になるので、前状態と操作に依存して遷移先の後状態が決まるはずです。
前状態からの差分操作を定義しないとポリシーがうまく学習できないかもしれません。
サンプルなので、そのように書いているだけかもしれませんが、一応気になったので。

投稿2018/03/20 04:15

編集2018/03/21 02:47
mkgrei

総合スコア8560

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Hayato1201

2018/03/20 09:21

回答ありがとうございます! actionの数がstateの部分になぜ関連するのでしょうか?例えば位置と速度がstateである以上のプログラムは速度を上げる下げるキープがactionですよね。 以前以下の質問でもご回答いただきましたが、 https://teratail.com/questions/117552 この様な環境を想定していてその箱というのをこの様な二次元配列で表現したいと考えています。そのため二次元配列の数が箱の数になります。以下の質問で説明した箱Bが10個に箱Aが1個で11個の配列という様にしたいため(11,5,3)と言いました。また箱Bのどれかを選ぶか、何もしないがactionのため、actionの数は結果11種類という様に設定しました。
Hayato1201

2018/03/20 09:24

まあでもとにかくself._shape = (11, 5, 3)で上記の様なstateを指定できるという事ですよね?以上の様な環境でも問題無いでしょうか? 長々と本当に申し訳ありませんが回答いただけるとありがたいです・・・
mkgrei

2018/03/20 09:32

そのようなことであれば、上の環境で正しいです。 actionで行うべきことはstepに実装すれば良いはずです。 おまけのリンクでは、stepに直接実装するのではなく別のクラスとして抽象化しています。 --- 「どれか」を選ぶのであれば11個で問題ないです。 複数個選べる場合、2**10個の選択がありえます。 私は後者の問題設定だと勘違いしていました。
Hayato1201

2018/03/21 01:53

すみません、再度質問です!追記させていただきました・・・
mkgrei

2018/03/21 02:47

回答に追記しました。
Hayato1201

2018/03/21 03:08

早速の回答ありがとうございます。少し追記させて頂きました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問