質問編集履歴
4
追記
test
CHANGED
File without changes
|
test
CHANGED
@@ -145,3 +145,43 @@
|
|
145
145
|
|
146
146
|
|
147
147
|
のようにできるのでしょうか?
|
148
|
+
|
149
|
+
|
150
|
+
|
151
|
+
|
152
|
+
|
153
|
+
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
|
154
|
+
|
155
|
+
追記
|
156
|
+
|
157
|
+
|
158
|
+
|
159
|
+
すみません、書き方が悪かったですが、追記ではもし0,1だけを取るのではなく各要素が0~1の実数値をとるならという事です!また状態の遷移に関して省略していました。
|
160
|
+
|
161
|
+
それだったら
|
162
|
+
|
163
|
+
|
164
|
+
|
165
|
+
```Pyhton
|
166
|
+
|
167
|
+
arr = np.array(arr)
|
168
|
+
|
169
|
+
arr[arr>0.5] = 1
|
170
|
+
|
171
|
+
arr[arr<=0.5] = 0
|
172
|
+
|
173
|
+
```
|
174
|
+
|
175
|
+
この部分は最後、それぞれのアクションに対して
|
176
|
+
|
177
|
+
```Pyhton
|
178
|
+
|
179
|
+
arr = np.array(arr)
|
180
|
+
|
181
|
+
return arr, reward, done, {}
|
182
|
+
|
183
|
+
```
|
184
|
+
|
185
|
+
|
186
|
+
|
187
|
+
のような形でreturnしても良いですよね?
|
3
追記
test
CHANGED
File without changes
|
test
CHANGED
@@ -87,3 +87,61 @@
|
|
87
87
|
```
|
88
88
|
|
89
89
|
このように示されていますが、これは速度と位置だけをstateとしてstepの最後でreturnしています。このような行列をreturnしたいのですが、どうすればいいのか思いついきません。。。
|
90
|
+
|
91
|
+
|
92
|
+
|
93
|
+
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
|
94
|
+
|
95
|
+
追記
|
96
|
+
|
97
|
+
|
98
|
+
|
99
|
+
少し環境が変わり、例えば0〜1の実数値をとる要素の配列、例えば
|
100
|
+
|
101
|
+
[1,0.52,0.26,0.08,0]
|
102
|
+
|
103
|
+
というような要素が5個ある配列が11個ある設定だとすると、
|
104
|
+
|
105
|
+
|
106
|
+
|
107
|
+
```Python
|
108
|
+
|
109
|
+
self._shape = (11, 5)
|
110
|
+
|
111
|
+
self.observation_space = gym.spaces.Box(low=0,
|
112
|
+
|
113
|
+
high=1,
|
114
|
+
|
115
|
+
shape=self._shape)
|
116
|
+
|
117
|
+
```
|
118
|
+
|
119
|
+
のようになるのでしょうか?
|
120
|
+
|
121
|
+
また、その際step関数としてreturnする際はどのような形で書けば良いでしょうか?
|
122
|
+
|
123
|
+
以下のような形で5×11のリストを作って行き、それを
|
124
|
+
|
125
|
+
```Python
|
126
|
+
|
127
|
+
arr = []
|
128
|
+
|
129
|
+
arr.append([1,0.52,0.26,0.08,0])
|
130
|
+
|
131
|
+
arr.append([0,0,0.2,0.18,1])
|
132
|
+
|
133
|
+
・
|
134
|
+
|
135
|
+
・
|
136
|
+
|
137
|
+
・
|
138
|
+
|
139
|
+
|
140
|
+
|
141
|
+
return arr, reward, done, {}
|
142
|
+
|
143
|
+
```
|
144
|
+
|
145
|
+
|
146
|
+
|
147
|
+
のようにできるのでしょうか?
|
2
編集
test
CHANGED
File without changes
|
test
CHANGED
@@ -18,7 +18,7 @@
|
|
18
18
|
|
19
19
|
|
20
20
|
|
21
|
-
この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をste
|
21
|
+
この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstateとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか?ちなみにこれは1か0しかとりません。例えば(2,5,3)だとしたら、
|
22
22
|
|
23
23
|
|
24
24
|
|
@@ -75,3 +75,15 @@
|
|
75
75
|
|
76
76
|
|
77
77
|
になったりという事です。これをどうすればうまく表すことができるでしょうか?
|
78
|
+
|
79
|
+
以上のサイトだと、
|
80
|
+
|
81
|
+
```Python
|
82
|
+
|
83
|
+
high = np.array([1.0, 1.0]) # 観測空間(state)の次元 (位置と速度の2次元) とそれらの最大値
|
84
|
+
|
85
|
+
self.observation_space = gym.spaces.Box(low=-high, high=high) # 最小値は、最大値のマイナスがけ
|
86
|
+
|
87
|
+
```
|
88
|
+
|
89
|
+
このように示されていますが、これは速度と位置だけをstateとしてstepの最後でreturnしています。このような行列をreturnしたいのですが、どうすればいいのか思いついきません。。。
|
1
誤字
test
CHANGED
File without changes
|
test
CHANGED
@@ -18,7 +18,7 @@
|
|
18
18
|
|
19
19
|
|
20
20
|
|
21
|
-
この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstepとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか?ちなみにこれは1か0しか
|
21
|
+
この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstepとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか?ちなみにこれは1か0しかとりません。例えば(2,5,3)だとしたら、
|
22
22
|
|
23
23
|
|
24
24
|
|