編集履歴

回答編集履歴

2020/02/17 16:18

投稿

スコア21956

test CHANGED Viewed

@@ -6,7 +6,7 @@
-環境 (強化学習の用語) の部分を自分で作って、強化学習のアルゴリズムの部分は既存の CartPole 等を解いているコードをそのまま流用すればいいのではないでしょうか。
+環境 (強化学習の用語) の部分を自分で作って、強化学習のアルゴリズムの部分は既存の ATARI のゲームなど画像を入力としたタスクを解いてる CNN の強化学習モデルをそのまま流用すればいいのではないでしょうか。
 質問者さんが作らなければいけない部分は、強化学習のアルゴリズムというよりは、それを実行する環境だと思います。