opengymで環境を並列化するにはどうすればいいですか?
このままでは環境を並列化させているアルゴリズム(A3c ape-x R2D2)
をgymで試せません
import gym import numpy as np #Pendulum-v0 #Breakout-v0 env = gym.make('Pendulum-v0') env.reset() for i in range(2000): env.render() action=env.action_space.sample() observation, reward, done, info = env.step(action) print(observation.shape,action,reward) if done: env.reset()
並列化なしでは動きます
DQNでの学習は成功しています
理想としては
observation, reward, done, info = env.step(action) action.shape=[バッチ,アクション] observation.shape=[バッチ,入力サイズ] reward.shape=[バッチ,1]
こういう風になっくれるとうれしいです
あなたの回答
tips
プレビュー