回答編集履歴

1

r

2020/02/17 16:18

投稿

tiitoi
tiitoi

スコア21956

test CHANGED
@@ -6,7 +6,7 @@
6
6
 
7
7
 
8
8
 
9
- 環境 (強化学習の用語) の部分を自分で作って、強化学習のアルゴリズムの部分は既存の CartPole を解いてコードをそのまま流用すればいいのではないでしょうか。
9
+ 環境 (強化学習の用語) の部分を自分で作って、強化学習のアルゴリズムの部分は既存の ATARI のゲームなど画像入力としたタスクを解いてる CNN の強化学習モデルをそのまま流用すればいいのではないでしょうか。
10
10
 
11
11
  質問者さんが作らなければいけない部分は、強化学習のアルゴリズムというよりは、それを実行する環境だと思います。
12
12