回答編集履歴

edit

2018/03/21 02:47

投稿

mkgrei

スコア8562

answer CHANGED Viewed

@@ -11,4 +11,43 @@
 おまけ
 環境に依存して取れるactionを動的に変更する方法（の参考になるかも）。
-https://stackoverflow.com/questions/45001361/open-ai-enviroment-with-changing-action-space-after-each-step
+https://stackoverflow.com/questions/45001361/open-ai-enviroment-with-changing-action-space-after-each-step
+---
+編集後について
+```python
+        self._shape = (11, 5)
+        self.observation_space = gym.spaces.Box(low=0,
+                                                high=1,
+                                                shape=self._shape)
+```
+は正しいです。
+ステップ関数はステップの場所というパラメータが1つあります。
+```python
+def step(x, t=0.5):
+    if x > 0.5:
+        return 1
+    else:
+        return 0
+np_step = np.vectorize(step)
+```
+numpy.arrayを一気に操作したいのなら上のような関数を作ると見通しがいいです。
+```python
+arr = np.array(arr)
+arr[arr>0.5] = 1
+arr[arr<=0.5] = 0
+```
+でもできますが。
+いろいろ書く方法があります。
+サンプルであるせいかもしれませんが、状態が無から生成されているようになっています。
+強化学習は「前状態」→「操作」→「後状態」、
+になるので、前状態と操作に依存して遷移先の後状態が決まるはずです。
+前状態からの差分操作を定義しないとポリシーがうまく学習できないかもしれません。
+サンプルなので、そのように書いているだけかもしれませんが、一応気になったので。

edit

2018/03/21 02:47

投稿

mkgrei

スコア8562

answer CHANGED Viewed

@@ -2,7 +2,7 @@
 整数値も強制しています。
 ```python
-        self._shape = (3, 3)
+        self._shape = (11, 5, 3)
         self.observation_space = gym.spaces.Box(low=0,
                                                 high=1,
                                                 shape=self._shape,