回答率: 85.48%

質問するログイン新規登録

トップに関する質問強化学習 pythonを用いた方策勾配の実装で困っています

編集履歴

質問編集履歴

1

全体の内容を修正しました。

2019/04/05 07:11

投稿

スコア10

test CHANGED Viewed

	@@ -1 +1 @@
1	- 強化学習 ~~方策勾配~~ pythonで実装
1	+ 強化学習 pythonを用いた方策勾配の実装で困っています

test CHANGED Viewed

@@ -6,11 +6,17 @@
+やりたいこと： 方策勾配を用いて報酬を最大化したい。
+わからないこと： NNを用いた場合の方策勾配の実装が合っているか、そもそも全体の実装コードが悪いのか。
-NeuralNetworkを用いてCartPole問題を学習させたいのですが上手くいきません。
+NeuralNetworkを用いて方策勾配を求めてパラメータを更新して学習させたいのですが上手くいきません。
-上手くいかないのは方策勾配の求め方が悪いのか、全体の実装が悪いのかがわかりません。
+環境のCartPole問題を用いて常にポール直立させたいのですが学習が上手く行っておらず、すぐに倒れてしまします。
-以下のコードで改善すべき箇所があれば、御指摘を頂きたいです。
+以下が実装したコードです。改善すべき箇所があれば御指摘を頂きたいです。
 宜しくお願い致します。
@@ -22,6 +28,10 @@
 import gym
+import matplotlib.pyplot as plt
+%matplotlib inline
 np.random.seed(0)
@@ -348,6 +358,16 @@
                         print('episode: {} total reward: {}'.format(t, episode_reward))
+T = Train()
+T.play()
+plt.plot(T.Rewards)
+plt.plot(T.batch_loss)
 ```