質問編集履歴
1
全体の内容を修正しました。
test
CHANGED
@@ -1 +1 @@
|
|
1
|
-
強化学習
|
1
|
+
強化学習 pythonを用いた方策勾配の実装で困っています
|
test
CHANGED
@@ -6,11 +6,17 @@
|
|
6
6
|
|
7
7
|
|
8
8
|
|
9
|
+
やりたいこと: 方策勾配を用いて報酬を最大化したい。
|
10
|
+
|
11
|
+
わからないこと: NNを用いた場合の方策勾配の実装が合っているか、そもそも全体の実装コードが悪いのか。
|
12
|
+
|
13
|
+
|
14
|
+
|
9
|
-
NeuralNetworkを用いて
|
15
|
+
NeuralNetworkを用いて方策勾配を求めてパラメータを更新して学習させたいのですが上手くいきません。
|
10
|
-
|
16
|
+
|
11
|
-
|
17
|
+
環境のCartPole問題を用いて常にポール直立させたいのですが学習が上手く行っておらず、すぐに倒れてしまします。
|
12
|
-
|
18
|
+
|
13
|
-
以下
|
19
|
+
以下が実装したコードです。改善すべき箇所があれば御指摘を頂きたいです。
|
14
20
|
|
15
21
|
宜しくお願い致します。
|
16
22
|
|
@@ -22,6 +28,10 @@
|
|
22
28
|
|
23
29
|
import gym
|
24
30
|
|
31
|
+
import matplotlib.pyplot as plt
|
32
|
+
|
33
|
+
%matplotlib inline
|
34
|
+
|
25
35
|
|
26
36
|
|
27
37
|
np.random.seed(0)
|
@@ -348,6 +358,16 @@
|
|
348
358
|
|
349
359
|
print('episode: {} total reward: {}'.format(t, episode_reward))
|
350
360
|
|
361
|
+
|
362
|
+
|
363
|
+
T = Train()
|
364
|
+
|
365
|
+
T.play()
|
366
|
+
|
367
|
+
plt.plot(T.Rewards)
|
368
|
+
|
369
|
+
plt.plot(T.batch_loss)
|
370
|
+
|
351
371
|
```
|
352
372
|
|
353
373
|
|