質問編集履歴

1

全体の内容を修正しました。

2019/04/05 07:11

投稿

Luisu
Luisu

スコア10

test CHANGED
@@ -1 +1 @@
1
- 強化学習 方策勾配 python実装
1
+ 強化学習 pythonを用いた方策勾配の実装で困っています
test CHANGED
@@ -6,11 +6,17 @@
6
6
 
7
7
 
8
8
 
9
+ やりたいこと: 方策勾配を用いて報酬を最大化したい。
10
+
11
+ わからないこと: NNを用いた場合の方策勾配の実装が合っているか、そもそも全体の実装コードが悪いのか。
12
+
13
+
14
+
9
- NeuralNetworkを用いてCartPole問題を学習させたいのですが上手くいきません。
15
+ NeuralNetworkを用いて方策勾配求めてパラメータを更新して学習させたいのですが上手くいきません。
10
-
16
+
11
- 上手くかないのは方策勾配の求め方悪いのか全体の実装が悪いのかがわかりせん
17
+ 環境のCartPole問題を用て常にポール直立させたいのです学習が上手く行っておらずすぐに倒れてしします
12
-
18
+
13
- 以下コードで改善すべき箇所があれば御指摘を頂きたいです。
19
+ 以下が実装したコードです。改善すべき箇所があれば御指摘を頂きたいです。
14
20
 
15
21
  宜しくお願い致します。
16
22
 
@@ -22,6 +28,10 @@
22
28
 
23
29
  import gym
24
30
 
31
+ import matplotlib.pyplot as plt
32
+
33
+ %matplotlib inline
34
+
25
35
 
26
36
 
27
37
  np.random.seed(0)
@@ -348,6 +358,16 @@
348
358
 
349
359
  print('episode: {} total reward: {}'.format(t, episode_reward))
350
360
 
361
+
362
+
363
+ T = Train()
364
+
365
+ T.play()
366
+
367
+ plt.plot(T.Rewards)
368
+
369
+ plt.plot(T.batch_loss)
370
+
351
371
  ```
352
372
 
353
373