強化学習の初心者です。
あるオリジナルボードゲーム(囲碁みたいに探索空間が非常に広い)で、盤面ごとの評価値を使ったminimax法を用いようと考えています。
強化学習ならば人間だけではできない最適な評価値を返せるようになると考え、評価関数にQ学習を用いようと考えています。
評価関数は、評価値を数秒で返せるようにしたいです。
強化学習は、学習時には非常に長い時間と大量のリソースを必要とするというように理解しています。
しかし学習後にある盤面を与えたときに、時間は必要とするのでしょうか。
初歩的な質問だとは思いますが、宜しくお願い致します。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/05/20 09:55