質問編集履歴
4
追記
title
CHANGED
File without changes
|
body
CHANGED
@@ -71,4 +71,24 @@
|
|
71
71
|
return arr, reward, done, {}
|
72
72
|
```
|
73
73
|
|
74
|
-
のようにできるのでしょうか?
|
74
|
+
のようにできるのでしょうか?
|
75
|
+
|
76
|
+
|
77
|
+
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
|
78
|
+
追記
|
79
|
+
|
80
|
+
すみません、書き方が悪かったですが、追記ではもし0,1だけを取るのではなく各要素が0~1の実数値をとるならという事です!また状態の遷移に関して省略していました。
|
81
|
+
それだったら
|
82
|
+
|
83
|
+
```Pyhton
|
84
|
+
arr = np.array(arr)
|
85
|
+
arr[arr>0.5] = 1
|
86
|
+
arr[arr<=0.5] = 0
|
87
|
+
```
|
88
|
+
この部分は最後、それぞれのアクションに対して
|
89
|
+
```Pyhton
|
90
|
+
arr = np.array(arr)
|
91
|
+
return arr, reward, done, {}
|
92
|
+
```
|
93
|
+
|
94
|
+
のような形でreturnしても良いですよね?
|
3
追記
title
CHANGED
File without changes
|
body
CHANGED
@@ -42,4 +42,33 @@
|
|
42
42
|
high = np.array([1.0, 1.0]) # 観測空間(state)の次元 (位置と速度の2次元) とそれらの最大値
|
43
43
|
self.observation_space = gym.spaces.Box(low=-high, high=high) # 最小値は、最大値のマイナスがけ
|
44
44
|
```
|
45
|
-
このように示されていますが、これは速度と位置だけをstateとしてstepの最後でreturnしています。このような行列をreturnしたいのですが、どうすればいいのか思いついきません。。。
|
45
|
+
このように示されていますが、これは速度と位置だけをstateとしてstepの最後でreturnしています。このような行列をreturnしたいのですが、どうすればいいのか思いついきません。。。
|
46
|
+
|
47
|
+
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
|
48
|
+
追記
|
49
|
+
|
50
|
+
少し環境が変わり、例えば0〜1の実数値をとる要素の配列、例えば
|
51
|
+
[1,0.52,0.26,0.08,0]
|
52
|
+
というような要素が5個ある配列が11個ある設定だとすると、
|
53
|
+
|
54
|
+
```Python
|
55
|
+
self._shape = (11, 5)
|
56
|
+
self.observation_space = gym.spaces.Box(low=0,
|
57
|
+
high=1,
|
58
|
+
shape=self._shape)
|
59
|
+
```
|
60
|
+
のようになるのでしょうか?
|
61
|
+
また、その際step関数としてreturnする際はどのような形で書けば良いでしょうか?
|
62
|
+
以下のような形で5×11のリストを作って行き、それを
|
63
|
+
```Python
|
64
|
+
arr = []
|
65
|
+
arr.append([1,0.52,0.26,0.08,0])
|
66
|
+
arr.append([0,0,0.2,0.18,1])
|
67
|
+
・
|
68
|
+
・
|
69
|
+
・
|
70
|
+
|
71
|
+
return arr, reward, done, {}
|
72
|
+
```
|
73
|
+
|
74
|
+
のようにできるのでしょうか?
|
2
編集
title
CHANGED
File without changes
|
body
CHANGED
@@ -8,7 +8,7 @@
|
|
8
8
|
[0. 0. 0.]
|
9
9
|
[0. 0. 0.]]
|
10
10
|
|
11
|
-
この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列を
|
11
|
+
この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstateとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか?ちなみにこれは1か0しかとりません。例えば(2,5,3)だとしたら、
|
12
12
|
|
13
13
|
[[1. 1. 0.]
|
14
14
|
[1. 1. 0.]
|
@@ -36,4 +36,10 @@
|
|
36
36
|
[1. 0. 0.]
|
37
37
|
[1. 0. 0.]]
|
38
38
|
|
39
|
-
になったりという事です。これをどうすればうまく表すことができるでしょうか?
|
39
|
+
になったりという事です。これをどうすればうまく表すことができるでしょうか?
|
40
|
+
以上のサイトだと、
|
41
|
+
```Python
|
42
|
+
high = np.array([1.0, 1.0]) # 観測空間(state)の次元 (位置と速度の2次元) とそれらの最大値
|
43
|
+
self.observation_space = gym.spaces.Box(low=-high, high=high) # 最小値は、最大値のマイナスがけ
|
44
|
+
```
|
45
|
+
このように示されていますが、これは速度と位置だけをstateとしてstepの最後でreturnしています。このような行列をreturnしたいのですが、どうすればいいのか思いついきません。。。
|
1
誤字
title
CHANGED
File without changes
|
body
CHANGED
@@ -8,7 +8,7 @@
|
|
8
8
|
[0. 0. 0.]
|
9
9
|
[0. 0. 0.]]
|
10
10
|
|
11
|
-
この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstepとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか?ちなみにこれは1か0しか
|
11
|
+
この様なものの集合、要はこれが10個あるとしたら、(10,5,3)の配列をstepとして返したいのですが、observation_space、gym.spaces.Boxの設定などどうすればいいでしょうか?ちなみにこれは1か0しかとりません。例えば(2,5,3)だとしたら、
|
12
12
|
|
13
13
|
[[1. 1. 0.]
|
14
14
|
[1. 1. 0.]
|