質問編集履歴

4

追記

2018/03/21 03:08

投稿

Hayato1201
Hayato1201

スコア220

test CHANGED
File without changes
test CHANGED
@@ -145,3 +145,43 @@
145
145
 
146
146
 
147
147
  のようにできるのでしょうか?
148
+
149
+
150
+
151
+
152
+
153
+ ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
154
+
155
+ 追記
156
+
157
+
158
+
159
+ すみません、書き方が悪かったですが、追記ではもし0,1だけを取るのではなく各要素が0~1の実数値をとるならという事です!また状態の遷移に関して省略していました。
160
+
161
+ それだったら
162
+
163
+
164
+
165
+ ```Pyhton
166
+
167
+ arr = np.array(arr)
168
+
169
+ arr[arr>0.5] = 1
170
+
171
+ arr[arr<=0.5] = 0
172
+
173
+ ```
174
+
175
+ この部分は最後、それぞれのアクションに対して
176
+
177
+ ```Pyhton
178
+
179
+ arr = np.array(arr)
180
+
181
+ return arr, reward, done, {}
182
+
183
+ ```
184
+
185
+
186
+
187
+ のような形でreturnしても良いですよね?

3

追記

2018/03/21 03:07

投稿

Hayato1201
Hayato1201

スコア220

test CHANGED
File without changes
test CHANGED
@@ -87,3 +87,61 @@
87
87
  ```
88
88
 
89
89
  このように示されていますが、これは速度と位置だけをstateとしてstepの最後でreturnしています。このような行列をreturnしたいのですが、どうすればいいのか思いついきません。。。
90
+
91
+
92
+
93
+ ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
94
+
95
+ 追記
96
+
97
+
98
+
99
+ 少し環境が変わり、例えば0〜1の実数値をとる要素の配列、例えば
100
+
101
+ [1,0.52,0.26,0.08,0]
102
+
103
+ というような要素が5個ある配列が11個ある設定だとすると、
104
+
105
+
106
+
107
+ ```Python
108
+
109
+ self._shape = (11, 5)
110
+
111
+ self.observation_space = gym.spaces.Box(low=0,
112
+
113
+ high=1,
114
+
115
+ shape=self._shape)
116
+
117
+ ```
118
+
119
+ のようになるのでしょうか?
120
+
121
+ また、その際step関数としてreturnする際はどのような形で書けば良いでしょうか?
122
+
123
+ 以下のような形で5×11のリストを作って行き、それを
124
+
125
+ ```Python
126
+
127
+ arr = []
128
+
129
+ arr.append([1,0.52,0.26,0.08,0])
130
+
131
+ arr.append([0,0,0.2,0.18,1])
132
+
133
+      ・
134
+
135
+      ・
136
+
137
+      ・
138
+
139
+
140
+
141
+ return arr, reward, done, {}
142
+
143
+ ```
144
+
145
+
146
+
147
+ のようにできるのでしょうか?

2

編集

2018/03/21 01:53

投稿

Hayato1201
Hayato1201

スコア220

test CHANGED
File without changes
test CHANGED
@@ -18,7 +18,7 @@
18
18
 
19
19
 
20
20
 
21
- この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstepとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか?ちなみにこれは1か0しかとりません。例えば(2,5,3)だとしたら、
21
+ この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstateとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか?ちなみにこれは1か0しかとりません。例えば(2,5,3)だとしたら、
22
22
 
23
23
 
24
24
 
@@ -75,3 +75,15 @@
75
75
 
76
76
 
77
77
  になったりという事です。これをどうすればうまく表すことができるでしょうか?
78
+
79
+ 以上のサイトだと、
80
+
81
+ ```Python
82
+
83
+ high = np.array([1.0, 1.0]) # 観測空間(state)の次元 (位置と速度の2次元) とそれらの最大値
84
+
85
+ self.observation_space = gym.spaces.Box(low=-high, high=high) # 最小値は、最大値のマイナスがけ
86
+
87
+ ```
88
+
89
+ このように示されていますが、これは速度と位置だけをstateとしてstepの最後でreturnしています。このような行列をreturnしたいのですが、どうすればいいのか思いついきません。。。

1

誤字

2018/03/17 12:03

投稿

Hayato1201
Hayato1201

スコア220

test CHANGED
File without changes
test CHANGED
@@ -18,7 +18,7 @@
18
18
 
19
19
 
20
20
 
21
- この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstepとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか?ちなみにこれは1か0しかりません。例えば(2,5,3)だとしたら、
21
+ この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstepとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか?ちなみにこれは1か0しかりません。例えば(2,5,3)だとしたら、
22
22
 
23
23
 
24
24