openAI gymのstep関数についてです。

http://futurismo.biz/archives/6615このサイトや、https://qiita.com/inoory/items/e63ade6f21766c7c2393このサイトの様にgym.core.Envを使って新しい環境を作り、keras-rlで学習させたいのですが、いくつか質問させてください。

stepで返すstateとして、5行3列の配列、

[[1. 1. 0.]
[1. 1. 0.]
[0. 0. 0.]
[0. 0. 0.]
[0. 0. 0.]]

この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstateとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか？ちなみにこれは1か0しかとりません。例えば(2,5,3)だとしたら、

[[1. 1. 0.]
[1. 1. 0.]
[0. 0. 0.]
[0. 0. 0.]
[0. 0. 0.]]

[[0. 0. 0.]
[0. 0. 0.]
[0. 0. 0.]
[0. 0. 0.]
[0. 0. 0.]]

これが、actionによって次のstateとして、

[[1. 1. 1.]
[1. 1. 1.]
[1. 1. 1.]
[0. 0. 0.]
[0. 0. 0.]]

[[1. 0. 0.]
[1. 0. 0.]
[1. 0. 0.]
[1. 0. 0.]
[1. 0. 0.]]

になったりという事です。これをどうすればうまく表すことができるでしょうか？
以上のサイトだと、

Python
1high = np.array([1.0, 1.0]) # 観測空間(state)の次元 (位置と速度の2次元) とそれらの最大値
2        self.observation_space = gym.spaces.Box(low=-high, high=high) # 最小値は、最大値のマイナスがけ

このように示されていますが、これは速度と位置だけをstateとしてstepの最後でreturnしています。このような行列をreturnしたいのですが、どうすればいいのか思いついきません。。。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
追記

少し環境が変わり、例えば0〜１の実数値をとる要素の配列、例えば
[1,0.52,0.26,0.08,0]
というような要素が５個ある配列が11個ある設定だとすると、

Python
1self._shape = (11, 5)
2        self.observation_space = gym.spaces.Box(low=0,
3                                                high=1,
4                                                shape=self._shape)

のようになるのでしょうか？
また、その際step関数としてreturnする際はどのような形で書けば良いでしょうか？
以下のような形で５×１１のリストを作って行き、それを

Python
1arr = []
2arr.append([1,0.52,0.26,0.08,0])
3arr.append([0,0,0.2,0.18,1])
4　　　　　・
5　　　　　・
6　　　　　・
7
8return arr, reward, done, {}

のようにできるのでしょうか？

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
追記

すみません、書き方が悪かったですが、追記ではもし0,1だけを取るのではなく各要素が0~1の実数値をとるならという事です！また状態の遷移に関して省略していました。
それだったら

Pyhton
1arr = np.array(arr)
2arr[arr>0.5] = 1
3arr[arr<=0.5] = 0

この部分は最後、それぞれのアクションに対して

Pyhton
1arr = np.array(arr)
2return arr, reward, done, {}

のような形でreturnしても良いですよね？

mkgrei

2018/03/18 19:27

例えば(2,2,2)の場合はどうなりますか？次元が上がっても最悪、シリアル化できます。(l,m,n)をl*m*n成分のベクトルに。

Hayato1201

2018/03/19 00:29

以上のような5×３の行列しかないので(2,5,3)にはなっても(2,2,2)などにはならない予定です。(5,3)のものがいくつかある感じにしたいてす。実際は(11,5,3)で実装したいです。l*m*n成分のベクトルとはどういう事でしょうか？？それだとBoxの部分はどう表されるのでしょうか？

mkgrei

2018/03/19 08:33

すべての要素が独立に0、1を取れるのであれば、actionの数は2**(l*m*n)になります。全部で「lかけるmかけるn」個の要素があるので、それを1次元に並び替えることができます。

行動規範の内容に同意します

回答1件

ベストアンサー

actionのルールがよくわからないので、答え難いのですが、observation_spaceは以下のようになります。
整数値も強制しています。

python
1        self._shape = (11, 5, 3)
2        self.observation_space = gym.spaces.Box(low=0,
3                                                high=1,
4                                                shape=self._shape,
5                                                dtype=int)

おまけ
環境に依存して取れるactionを動的に変更する方法（の参考になるかも）。
https://stackoverflow.com/questions/45001361/open-ai-enviroment-with-changing-action-space-after-each-step

編集後について

python
1        self._shape = (11, 5)
2        self.observation_space = gym.spaces.Box(low=0,
3                                                high=1,
4                                                shape=self._shape)

は正しいです。

ステップ関数はステップの場所というパラメータが1つあります。

python
1def step(x, t=0.5):
2    if x > 0.5:
3        return 1
4    else:
5        return 0
6np_step = np.vectorize(step)

numpy.arrayを一気に操作したいのなら上のような関数を作ると見通しがいいです。

python
1arr = np.array(arr)
2arr[arr>0.5] = 1
3arr[arr<=0.5] = 0

でもできますが。
いろいろ書く方法があります。

サンプルであるせいかもしれませんが、状態が無から生成されているようになっています。
強化学習は「前状態」→「操作」→「後状態」、
になるので、前状態と操作に依存して遷移先の後状態が決まるはずです。
前状態からの差分操作を定義しないとポリシーがうまく学習できないかもしれません。
サンプルなので、そのように書いているだけかもしれませんが、一応気になったので。

投稿2018/03/20 04:15

編集2018/03/21 02:47

mkgrei

総合スコア8560

Hayato1201

2018/03/20 09:21

回答ありがとうございます！ actionの数がstateの部分になぜ関連するのでしょうか？例えば位置と速度がstateである以上のプログラムは速度を上げる下げるキープがactionですよね。以前以下の質問でもご回答いただきましたが、 https://teratail.com/questions/117552 この様な環境を想定していてその箱というのをこの様な二次元配列で表現したいと考えています。そのため二次元配列の数が箱の数になります。以下の質問で説明した箱Bが１０個に箱Aが１個で11個の配列という様にしたいため(11,5,3)と言いました。また箱Bのどれかを選ぶか、何もしないがactionのため、actionの数は結果11種類という様に設定しました。

Hayato1201

2018/03/20 09:24

まあでもとにかくself._shape = (11, 5, 3)で上記の様なstateを指定できるという事ですよね？以上の様な環境でも問題無いでしょうか？長々と本当に申し訳ありませんが回答いただけるとありがたいです・・・

mkgrei

2018/03/20 09:32

そのようなことであれば、上の環境で正しいです。 actionで行うべきことはstepに実装すれば良いはずです。おまけのリンクでは、stepに直接実装するのではなく別のクラスとして抽象化しています。 --- 「どれか」を選ぶのであれば11個で問題ないです。複数個選べる場合、2**10個の選択がありえます。私は後者の問題設定だと勘違いしていました。

Hayato1201

2018/03/21 01:53

すみません、再度質問です！追記させていただきました・・・

mkgrei

2018/03/21 02:47

回答に追記しました。

Hayato1201

2018/03/21 03:08

早速の回答ありがとうございます。少し追記させて頂きました。

行動規範の内容に同意します