質問編集履歴

追記

2022/03/10 22:34

投稿

スコア11

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -70,3 +70,23 @@
+追記
+```Python
+    q_func.to_gpu(0) ## GPUを使いたい人はこのコメントを外す
+    optimizer = chainer.optimizers.Adam(eps=1e-2)
+    optimizer.setup(q_func) #設計したq関数の最適化にAdamを使う
+    gamma = 0.95
+    explorer = chainerrl.explorers.ConstantEpsilonGreedy(
+        epsilon=0.3, random_action_func=env.action_space.sample)
+    replay_buffer = chainerrl.replay_buffer.ReplayBuffer(capacity = 10**6)
+    phi = lambda x:x.astype(np.float32, copy=False)##型の変換(chainerはfloat32型。float64は駄目)
+    agent = chainerrl.agents.DoubleDQN(
+        q_func, optimizer, replay_buffer, gamma, explorer,
+        replay_start_size=500, update_interval=1,
+        target_update_interval=100, phi=phi)
+```