回答編集履歴
1
r
test
CHANGED
@@ -6,7 +6,7 @@
|
|
6
6
|
|
7
7
|
|
8
8
|
|
9
|
-
環境 (強化学習の用語) の部分を自分で作って、強化学習のアルゴリズムの部分は既存の
|
9
|
+
環境 (強化学習の用語) の部分を自分で作って、強化学習のアルゴリズムの部分は既存の ATARI のゲームなど画像を入力としたタスクを解いてる CNN の強化学習モデルをそのまま流用すればいいのではないでしょうか。
|
10
10
|
|
11
11
|
質問者さんが作らなければいけない部分は、強化学習のアルゴリズムというよりは、それを実行する環境だと思います。
|
12
12
|
|