teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

4

追記

2018/03/21 03:08

投稿

Hayato1201
Hayato1201

スコア232

title CHANGED
File without changes
body CHANGED
@@ -71,4 +71,24 @@
71
71
  return arr, reward, done, {}
72
72
  ```
73
73
 
74
- のようにできるのでしょうか?
74
+ のようにできるのでしょうか?
75
+
76
+
77
+ ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
78
+ 追記
79
+
80
+ すみません、書き方が悪かったですが、追記ではもし0,1だけを取るのではなく各要素が0~1の実数値をとるならという事です!また状態の遷移に関して省略していました。
81
+ それだったら
82
+
83
+ ```Pyhton
84
+ arr = np.array(arr)
85
+ arr[arr>0.5] = 1
86
+ arr[arr<=0.5] = 0
87
+ ```
88
+ この部分は最後、それぞれのアクションに対して
89
+ ```Pyhton
90
+ arr = np.array(arr)
91
+ return arr, reward, done, {}
92
+ ```
93
+
94
+ のような形でreturnしても良いですよね?

3

追記

2018/03/21 03:07

投稿

Hayato1201
Hayato1201

スコア232

title CHANGED
File without changes
body CHANGED
@@ -42,4 +42,33 @@
42
42
  high = np.array([1.0, 1.0]) # 観測空間(state)の次元 (位置と速度の2次元) とそれらの最大値
43
43
  self.observation_space = gym.spaces.Box(low=-high, high=high) # 最小値は、最大値のマイナスがけ
44
44
  ```
45
- このように示されていますが、これは速度と位置だけをstateとしてstepの最後でreturnしています。このような行列をreturnしたいのですが、どうすればいいのか思いついきません。。。
45
+ このように示されていますが、これは速度と位置だけをstateとしてstepの最後でreturnしています。このような行列をreturnしたいのですが、どうすればいいのか思いついきません。。。
46
+
47
+ ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
48
+ 追記
49
+
50
+ 少し環境が変わり、例えば0〜1の実数値をとる要素の配列、例えば
51
+ [1,0.52,0.26,0.08,0]
52
+ というような要素が5個ある配列が11個ある設定だとすると、
53
+
54
+ ```Python
55
+ self._shape = (11, 5)
56
+ self.observation_space = gym.spaces.Box(low=0,
57
+ high=1,
58
+ shape=self._shape)
59
+ ```
60
+ のようになるのでしょうか?
61
+ また、その際step関数としてreturnする際はどのような形で書けば良いでしょうか?
62
+ 以下のような形で5×11のリストを作って行き、それを
63
+ ```Python
64
+ arr = []
65
+ arr.append([1,0.52,0.26,0.08,0])
66
+ arr.append([0,0,0.2,0.18,1])
67
+      ・
68
+      ・
69
+      ・
70
+
71
+ return arr, reward, done, {}
72
+ ```
73
+
74
+ のようにできるのでしょうか?

2

編集

2018/03/21 01:53

投稿

Hayato1201
Hayato1201

スコア232

title CHANGED
File without changes
body CHANGED
@@ -8,7 +8,7 @@
8
8
  [0. 0. 0.]
9
9
  [0. 0. 0.]]
10
10
 
11
- この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstepとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか?ちなみにこれは1か0しかとりません。例えば(2,5,3)だとしたら、
11
+ この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstateとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか?ちなみにこれは1か0しかとりません。例えば(2,5,3)だとしたら、
12
12
 
13
13
  [[1. 1. 0.]
14
14
  [1. 1. 0.]
@@ -36,4 +36,10 @@
36
36
  [1. 0. 0.]
37
37
  [1. 0. 0.]]
38
38
 
39
- になったりという事です。これをどうすればうまく表すことができるでしょうか?
39
+ になったりという事です。これをどうすればうまく表すことができるでしょうか?
40
+ 以上のサイトだと、
41
+ ```Python
42
+ high = np.array([1.0, 1.0]) # 観測空間(state)の次元 (位置と速度の2次元) とそれらの最大値
43
+ self.observation_space = gym.spaces.Box(low=-high, high=high) # 最小値は、最大値のマイナスがけ
44
+ ```
45
+ このように示されていますが、これは速度と位置だけをstateとしてstepの最後でreturnしています。このような行列をreturnしたいのですが、どうすればいいのか思いついきません。。。

1

誤字

2018/03/17 12:03

投稿

Hayato1201
Hayato1201

スコア232

title CHANGED
File without changes
body CHANGED
@@ -8,7 +8,7 @@
8
8
  [0. 0. 0.]
9
9
  [0. 0. 0.]]
10
10
 
11
- この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstepとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか?ちなみにこれは1か0しかりません。例えば(2,5,3)だとしたら、
11
+ この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstepとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか?ちなみにこれは1か0しかりません。例えば(2,5,3)だとしたら、
12
12
 
13
13
  [[1. 1. 0.]
14
14
  [1. 1. 0.]