強化学習本番での計算量

強化学習の初心者です。

あるオリジナルボードゲーム（囲碁みたいに探索空間が非常に広い）で、盤面ごとの評価値を使ったminimax法を用いようと考えています。
強化学習ならば人間だけではできない最適な評価値を返せるようになると考え、評価関数にQ学習を用いようと考えています。
評価関数は、評価値を数秒で返せるようにしたいです。

強化学習は、学習時には非常に長い時間と大量のリソースを必要とするというように理解しています。
しかし学習後にある盤面を与えたときに、時間は必要とするのでしょうか。

初歩的な質問だとは思いますが、宜しくお願い致します。

行動規範の内容に同意します

回答1件

ベストアンサー

一般に、学習に時間を要する場合であっても、学習後の判定には時間を要さないことが普通です。もちろん、コンピュータの性能にもよりますので、学習だけスパコン使って判定には組み込み系使うとか極端な場合は例外です。ついでにいうと、メモリ容量も関係しますけれど、学習と判定を同一コンピュータ使う限りならば問題はないはずです。

投稿2018/05/20 04:05

HogeAnimalLover

総合スコア4853

programming

2018/05/20 09:55

回答ありがとうございます。まだ強化学習についての知識が十分でない状態で設計を考えなければならなかったので、基本的なことでも知ることができ、よかったです。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

強化学習本番での計算量

関連した質問