五目並べ　強化学習で実装or αβ法

今現在三目並べでminimax法の改良版αβ法を作り終え、ここから次五目並べも作ろうかと思っているんですが
そのままαβ法で実装するかそれとも強化学習でやろうか悩んでいて

1.強化学習だとモンテカルロ法に手を付ける方が良いでしょうか？

2.αβ法でも五目並べは実装できるでしょうか？

人間　VS　AIを今作っており人間に勝てるようなAIを実装したいと考えています。そのためにαβ法でも通じるのかそれともモンテカルロみたいに強化学習にした方がいいのか今悩んでおり質問させていただきました。

t_obara

2017/11/21 10:10

貴殿がなぜ五目並べを作ろうとしているのか、それを作ることでどのようになりたいのかをご提示されると、回答がつきやすくなるのではないでしょうか。

DANNBU

2017/11/21 10:47

ご返信ありがとうございます。人間VSAIを今作っており人間に勝てるようなAIを実装したいと考えています。そのためにαβ法でも通じるのかそれともモンテカルロみたいに強化学習にした方がいいのか今悩んでおり質問させていただきました

wakame

2017/11/21 14:16

コメントではなく質問へ追記すると閲覧される方の目に付きやすくなり回答もしやすくなると思いますよ。

行動規範の内容に同意します

回答1件

ゲームAIを作るのは楽しいですね。
製作している自分より強くなってしまうと、成長を実感できなくなりますが。

「αβ法でも通じるのか」ということですが、なかなかに目標が曖昧かもしれません。
人間の強さに大きく依存しますが、素人ならpythonで実装された単純なαβ法でも勝てますし、少し強い素人でもC++などでコーディングされたもっと短時間にたくさん探索できるαβ法には勝つのが難しいかと思います。

そもそもの問題としてαβ法は評価関数をヒューリスティックに決めるので、そこにも大きく依存するかと。
よい評価関数を用意できれば、αβ法は相当強いです。（オセロとか、”一般人”では勝てないかと思います。）

強化学習を実装する場合はうまく報酬を与える方法を考える必要があります。
何か具体的なアイディアがあるでしょうか？
よい評価関数を用意するのと同じくらい難しいです。
そもそも強化学習の手法を勉強するのがそれなりに大変です。

モンテカルロ法というのはモンテカルロ木探索のことでしょうか？
完全ランダムなプレイアウトもありますが。

アルファ碁みたいに深層学習とモンテカルロ木探索を組み合わせた実績があるので、AIの強さは否定しようがありませんが、αβ法からはじめて、せめてそれに勝つことを目指して学習させるのが普通かと思います。

五目並べなら盤の大きさにもよりますが、（よく訓練された）強化学習はオーバーキルのような気がします。

ご質問をされている方の経験等がわかりませんので、なんとも言えないのですが、ゲーム以外で強化学習の経験があるなどでは無ければ、αβ法から始めることをおすすめします。

ただの個人的な意見ですが。

投稿2017/11/21 17:20

mkgrei

総合スコア8560

DANNBU

2017/11/22 15:07

ご返信ありがとうございます。私自身ほぼ素人に等しいです。やはりαβ法でやっていくのが良いですかね今の評価値の設定としては勝つと１　負けると-2 引き分けだと0という風に設定しておりこれよりも良い評価値の設定はないものかと考え中です。

mkgrei

2017/11/23 04:56

五目並べならもっとよい評価関数がありそうですね。そもそも読み切りが難しい可能性が高いので、深さ制限をつけると、引き分けばっかりになるような気がします。

DANNBU

2017/11/23 08:56

AIが勝つことは難しい感じですか？

mkgrei

2017/11/23 09:00

読みの深さを超えたところに勝ちパターンがある場合に負けます。そうでないのであれば、とりあえず負けないものができて、人間側がミスをした時に勝ちます。

DANNBU

2017/11/23 09:04

深さはだいたい５手先くらいを考えてるんですがそれでもAIといい勝負ができますかね？？

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

五目並べ　強化学習で実装or αβ法

関連した質問