この二つを使ったDQNの実装を試みるため、以下のサイトなどを参考に勉強しているのですが、それについて質問です。
https://qiita.com/inoory/items/e63ade6f21766c7c2393
最初のクラスの宣言時に、
self.action_space = gym.spaces.Discrete(3) # 行動空間。速度を下げる、そのまま、上げるの3種 high = np.array([1.0, 1.0]) # 観測空間(state)の次元 (位置と速度の2次元) とそれらの最大値 self.observation_space = gym.spaces.Box(low=-high, high=high) # 最小値は、最大値のマイナスがけ
と書かれていますが、速度を下げる、そのまま、上げるの3種とあるのにこれってアクションの種類とその範囲しか示されていない様に見えるのですがどうなのでしょうか?その下のstep関数では、actionを受け取りますが、これはどう言った値なのでしょうか?
ーーーーーーーーーーー
回答依頼をさせて頂いた方へ
今回も申し訳ありません、依頼させていただきますが、もし時間がある様ならばお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/03/15 02:06