編集履歴

質問編集履歴

追記

2018/03/21 03:08

投稿

Hayato1201

スコア232

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -71,4 +71,24 @@
 return arr, reward, done, {}
 ```
-のようにできるのでしょうか？
+のようにできるのでしょうか？
+ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
+追記
+すみません、書き方が悪かったですが、追記ではもし0,1だけを取るのではなく各要素が0~1の実数値をとるならという事です！また状態の遷移に関して省略していました。
+それだったら
+```Pyhton
+arr = np.array(arr)
+arr[arr>0.5] = 1
+arr[arr<=0.5] = 0
+```
+この部分は最後、それぞれのアクションに対して
+```Pyhton
+arr = np.array(arr)
+return arr, reward, done, {}
+```
+のような形でreturnしても良いですよね？

追記

2018/03/21 03:07

投稿

Hayato1201

スコア232

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -42,4 +42,33 @@
 high = np.array([1.0, 1.0]) # 観測空間(state)の次元 (位置と速度の2次元) とそれらの最大値
         self.observation_space = gym.spaces.Box(low=-high, high=high) # 最小値は、最大値のマイナスがけ
 ```
-このように示されていますが、これは速度と位置だけをstateとしてstepの最後でreturnしています。このような行列をreturnしたいのですが、どうすればいいのか思いついきません。。。
+このように示されていますが、これは速度と位置だけをstateとしてstepの最後でreturnしています。このような行列をreturnしたいのですが、どうすればいいのか思いついきません。。。
+ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
+追記
+少し環境が変わり、例えば0〜１の実数値をとる要素の配列、例えば
+[1,0.52,0.26,0.08,0]
+というような要素が５個ある配列が11個ある設定だとすると、
+```Python
+self._shape = (11, 5)
+        self.observation_space = gym.spaces.Box(low=0,
+                                                high=1,
+                                                shape=self._shape)
+```
+のようになるのでしょうか？
+また、その際step関数としてreturnする際はどのような形で書けば良いでしょうか？
+以下のような形で５×１１のリストを作って行き、それを
+```Python
+arr = []
+arr.append([1,0.52,0.26,0.08,0])
+arr.append([0,0,0.2,0.18,1])
+　　　　　・
+　　　　　・
+　　　　　・
+return arr, reward, done, {}
+```
+のようにできるのでしょうか？

編集

2018/03/21 01:53

投稿

Hayato1201

スコア232

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -8,7 +8,7 @@
 [0. 0. 0.]
 [0. 0. 0.]]
-この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstepとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか？ちなみにこれは1か0しかとりません。例えば(2,5,3)だとしたら、
+この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstateとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか？ちなみにこれは1か0しかとりません。例えば(2,5,3)だとしたら、
 [[1. 1. 0.]
 [1. 1. 0.]
@@ -36,4 +36,10 @@
 [1. 0. 0.]
 [1. 0. 0.]]
-になったりという事です。これをどうすればうまく表すことができるでしょうか？
+になったりという事です。これをどうすればうまく表すことができるでしょうか？
+以上のサイトだと、
+```Python
+high = np.array([1.0, 1.0]) # 観測空間(state)の次元 (位置と速度の2次元) とそれらの最大値
+        self.observation_space = gym.spaces.Box(low=-high, high=high) # 最小値は、最大値のマイナスがけ
+```
+このように示されていますが、これは速度と位置だけをstateとしてstepの最後でreturnしています。このような行列をreturnしたいのですが、どうすればいいのか思いついきません。。。

誤字

2018/03/17 12:03

投稿

Hayato1201

スコア232

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -8,7 +8,7 @@
 [0. 0. 0.]
 [0. 0. 0.]]
-この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstepとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか？ちなみにこれは1か0しか撮りません。例えば(2,5,3)だとしたら、
+この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstepとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか？ちなみにこれは1か0しかとりません。例えば(2,5,3)だとしたら、
 [[1. 1. 0.]
 [1. 1. 0.]