質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

0回答

2090閲覧

DQNでCartPole問題を解きたい

.Won

総合スコア66

Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2018/12/05 14:37

私はDQNでCartPoleを解きたいと考えています。
しかし、うまく学習しません。

何度も同じ行動をとってしまい(rightかleftに出力が偏る)すぐに失敗してしまいます。
どの辺がおかしいのでしょうか?

参考
CartPoleでDQN(deep Q-learning)、DDQNを実装・解説【Phythonで強化学習:第2回】

python

1import gym 2from collections import deque 3import keras 4from keras import optimizers 5from keras import losses 6from keras.models import Sequential 7from keras.layers import Dense 8from keras.optimizers import Adam 9from keras.utils import plot_model 10from keras import backend as K 11import matplotlib.pyplot as plt 12import numpy as np 13import random 14import sys 15import time 16 17EPOCH = 200 18BATCH_SIZE = 32 19CLEAR_TURN = 100 20GAMMA = 0.99 21 22def getAction(model,observation,episode): 23 y = model.predict(observation.reshape((1,4))) 24 if (0.01 +0.9/(1.0 + episode)) <= np.random.uniform(0,1): 25 return np.argmax(y) 26 else: 27 return np.random.choice([0, 1]) 28 29def learn(model,data): 30 y_pred = [] 31 y_true = [] 32 for d in data: 33 state,action,reward,nextState = d 34 y = model.predict(state) 35 if not (nextState == np.zeros(state.shape)).all(axis=1): 36 y[0][action] = reward + GAMMA * np.max(model.predict(nextState)[0]) 37 else: 38 y[0][action] = reward 39 y_pred.append(state.reshape(4)) 40 y_true.append(y.reshape(2)) 41 model.fit(np.array(y_pred),np.array(y_true),batch_size=BATCH_SIZE,verbose=0,epochs=1) 42 43def huberloss(y_true, y_pred): 44 return K.mean(K.minimum(0.5*K.square(y_pred-y_true), K.abs(y_pred-y_true)-0.5), axis=1) 45 46def main(args): 47 48 env = gym.make('CartPole-v0') 49 model = Sequential() 50 model.add(Dense(16,activation="relu",input_dim=4)) 51 model.add(Dense(16,activation="relu")) 52 model.add(Dense(2,activation="linear")) 53 model.compile(loss=huberloss, optimizer=Adam(lr=0.00001)) 54 model.summary() 55 56 data = deque(maxlen=200) 57 58 plot_x = [] 59 plot_y = [] 60 61 point = 0 62 63 for episode in range(EPOCH): 64 observation = env.reset() 65 nextObservation, reward, done, info = env.step(env.action_space.sample()) 66 67 for t in range(CLEAR_TURN * 2): 68 69 if EPOCH - episode == 2: 70 env.render() 71 time.sleep(0.1) 72 73 action = getAction(model,observation,episode) 74 nextObservation, reward, done, info = env.step(action) 75 if done: 76 if t > CLEAR_TURN: 77 data.append((observation.reshape((1,4)),action,1,np.zeros((1,4)))) 78 else: 79 data.append((observation.reshape((1,4)),action,-1,np.zeros((1,4)))) 80 print("{} times : finished after {} timestamps".format(episode,t+1)) 81 82 plot_x.append(episode) 83 plot_y.append(t + 1) 84 85 break 86 else: 87 data.append((observation.reshape((1,4)),action,0,nextObservation.reshape((1,4)))) 88 observation = nextObservation 89 if BATCH_SIZE < len(data): 90 learn(model,data) 91 92 plt.scatter(plot_x,plot_y,marker="+") 93 plt.show() 94 95main(sys.argv)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問