質問編集履歴
3
誤字
test
CHANGED
File without changes
|
test
CHANGED
@@ -8,11 +8,11 @@
|
|
8
8
|
|
9
9
|
|
10
10
|
|
11
|
-
### 発生している問題
|
11
|
+
### 発生している問題
|
12
12
|
|
13
13
|
学習が全く進んでいないように思えます。
|
14
14
|
|
15
|
-
「作りながら学ぶ!深層強化学習」の実装コードだと、120episode程度学習するとcartpoleを200step以上倒れないように維持することができるのです。しかし、私が行った(10episode分学習したnetworkでプレイ→)というサイクルで学習する場合には1000サイクル(実質10000episode)学習を行っても平均30step程度しか、cartpoleを倒れず維持することができません。これは、学習を全く行っおらず、randomにプレイした場合と同じ程度しか維持できていないということです。
|
15
|
+
「作りながら学ぶ!深層強化学習」の実装コードだと、120episode程度学習するとcartpoleを200step以上倒れないように維持することができるのです。しかし、私が行った(10episode分学習したnetworkでプレイ→学習→)というサイクルで学習する場合には1000サイクル(実質10000episode)学習を行っても平均30step程度しか、cartpoleを倒れず維持することができません。これは、学習を全く行っておらず、randomにプレイした場合と同じ程度しか倒れないように維持できていないということです。
|
16
16
|
|
17
17
|
### 該当のソースコード
|
18
18
|
|
2
誤字
test
CHANGED
File without changes
|
test
CHANGED
@@ -4,7 +4,7 @@
|
|
4
4
|
|
5
5
|
今回はopen ai gymのCartPole-v0(できるだけ長くcartpoleを倒れないようにしようというゲーム)で何回かゲームをプレイ→ゲームのプレイデータから学習→ゲームをプレイ→ゲームのプレイデータから学習→...ということを行っています。
|
6
6
|
|
7
|
-
強化学習の方法はDueling Networkを使っていて、コードは「作りながら学ぶ!深層強化学習」(著者:小川雄太郎)の実装コードを参考に作っています([Deep-Reinforcement-Learning-Book](https://github.com/YutaroOgawa/Deep-Reinforcement-Learning-Book))。ReplayMemory,Netクラスはそのままで、Brain,Agentクラスは学習したネットワークを保存するように書き換えてあります。Environmentクラスは、Environment_Dクラスがゲームをプレイした際のstate,action,next_state,rewardの情報だけを保存しておくクラス、Environment_Lが保存されたstate,action,next_state,rewardの情報をもとにNetworkが学習するクラスです。
|
7
|
+
強化学習の方法はDueling Networkを使っていて、コードは「作りながら学ぶ!深層強化学習」(著者:小川雄太郎)の実装コードを参考に作っています([Deep-Reinforcement-Learning-Book](https://github.com/YutaroOgawa/Deep-Reinforcement-Learning-Book))。ReplayMemory,Netクラスはそのままで、Brain,Agentクラスは学習したネットワークとメモリーを保存するように書き換えてあります。Environmentクラスは、Environment_Dクラスがゲームをプレイした際のstate,action,next_state,rewardの情報だけを保存しておくクラス、Environment_Lが保存されたstate,action,next_state,rewardの情報をもとにNetworkが学習するクラスです。
|
8
8
|
|
9
9
|
|
10
10
|
|
1
誤字
test
CHANGED
File without changes
|
test
CHANGED
@@ -2,7 +2,7 @@
|
|
2
2
|
|
3
3
|
学習しながらゲームを進めることができないようなゲームでも、強化学習によってまともにゲームをプレイできるモデルを作成したいです。
|
4
4
|
|
5
|
-
今回はopen ai gymのCartPole-v0(できるだけ長くcartpoleを倒れないようにしようというゲーム)で何回かゲームをプレイ→学習→ゲームをプレイ→学習→...ということを行っています。
|
5
|
+
今回はopen ai gymのCartPole-v0(できるだけ長くcartpoleを倒れないようにしようというゲーム)で何回かゲームをプレイ→ゲームのプレイデータから学習→ゲームをプレイ→ゲームのプレイデータから学習→...ということを行っています。
|
6
6
|
|
7
7
|
強化学習の方法はDueling Networkを使っていて、コードは「作りながら学ぶ!深層強化学習」(著者:小川雄太郎)の実装コードを参考に作っています([Deep-Reinforcement-Learning-Book](https://github.com/YutaroOgawa/Deep-Reinforcement-Learning-Book))。ReplayMemory,Netクラスはそのままで、Brain,Agentクラスは学習したネットワークを保存するように書き換えてあります。Environmentクラスは、Environment_Dクラスがゲームをプレイした際のstate,action,next_state,rewardの情報だけを保存しておくクラス、Environment_Lが保存されたstate,action,next_state,rewardの情報をもとにNetworkが学習するクラスです。
|
8
8
|
|