質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

91.36%

  • Python 3.x

    2395questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

五目並べ 強化学習で実装or αβ法

受付中

回答 1

投稿 2017/11/21 17:42 ・編集 2017/11/22 01:09

  • 評価
  • クリップ 1
  • VIEW 77

DANNBU

score 11

今現在三目並べでminimax法の改良版αβ法を作り終え、ここから次五目並べも作ろうかと思っているんですが
そのままαβ法で実装するかそれとも強化学習でやろうか悩んでいて

1.強化学習だとモンテカルロ法に手を付ける方が良いでしょうか?

2.αβ法でも五目並べは実装できるでしょうか?

人間 VS AIを今作っており人間に勝てるようなAIを実装したいと考えています。そのためにαβ法でも通じるのかそれともモンテカルロみたいに強化学習にした方がいいのか今悩んでおり質問させていただきました。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • t_obara

    2017/11/21 19:10

    貴殿がなぜ五目並べを作ろうとしているのか、それを作ることでどのようになりたいのかをご提示されると、回答がつきやすくなるのではないでしょうか。

    キャンセル

  • DANNBU

    2017/11/21 19:47

    ご返信ありがとうございます。人間VSAIを今作っており人間に勝てるようなAIを実装したいと考えています。そのためにαβ法でも通じるのかそれともモンテカルロみたいに強化学習にした方がいいのか今悩んでおり質問させていただきました

    キャンセル

  • wakame

    2017/11/21 23:16

    コメントではなく質問へ追記すると閲覧される方の目に付きやすくなり回答もしやすくなると思いますよ。

    キャンセル

回答 1

+2

ゲームAIを作るのは楽しいですね。
製作している自分より強くなってしまうと、成長を実感できなくなりますが。

「αβ法でも通じるのか」ということですが、なかなかに目標が曖昧かもしれません。
人間の強さに大きく依存しますが、素人ならpythonで実装された単純なαβ法でも勝てますし、少し強い素人でもC++などでコーディングされたもっと短時間にたくさん探索できるαβ法には勝つのが難しいかと思います。

そもそもの問題としてαβ法は評価関数をヒューリスティックに決めるので、そこにも大きく依存するかと。
よい評価関数を用意できれば、αβ法は相当強いです。(オセロとか、”一般人”では勝てないかと思います。)

強化学習を実装する場合はうまく報酬を与える方法を考える必要があります。
何か具体的なアイディアがあるでしょうか?
よい評価関数を用意するのと同じくらい難しいです。
そもそも強化学習の手法を勉強するのがそれなりに大変です。

モンテカルロ法というのはモンテカルロ木探索のことでしょうか?
完全ランダムなプレイアウトもありますが。

アルファ碁みたいに深層学習とモンテカルロ木探索を組み合わせた実績があるので、AIの強さは否定しようがありませんが、αβ法からはじめて、せめてそれに勝つことを目指して学習させるのが普通かと思います。

五目並べなら盤の大きさにもよりますが、(よく訓練された)強化学習はオーバーキルのような気がします。

ご質問をされている方の経験等がわかりませんので、なんとも言えないのですが、ゲーム以外で強化学習の経験があるなどでは無ければ、αβ法から始めることをおすすめします。

ただの個人的な意見ですが。

投稿 2017/11/22 02:20

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/11/23 00:07

    ご返信ありがとうございます。
    私自身ほぼ素人に等しいです。
    やはりαβ法でやっていくのが良いですかね
    今の評価値の設定としては勝つと1 負けると-2 引き分けだと0という風に設定しており
    これよりも良い評価値の設定はないものかと考え中です。

    キャンセル

  • 2017/11/23 13:56

    五目並べならもっとよい評価関数がありそうですね。
    そもそも読み切りが難しい可能性が高いので、深さ制限をつけると、引き分けばっかりになるような気がします。

    キャンセル

  • 2017/11/23 17:56

    AIが勝つことは難しい感じですか?

    キャンセル

  • 2017/11/23 18:00

    読みの深さを超えたところに勝ちパターンがある場合に負けます。
    そうでないのであれば、とりあえず負けないものができて、人間側がミスをした時に勝ちます。

    キャンセル

  • 2017/11/23 18:04

    深さはだいたい5手先くらいを考えてるんですがそれでもAIといい勝負ができますかね??

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

ただいまの回答率

91.36%

同じタグがついた質問を見る

  • Python 3.x

    2395questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

閲覧数の多いPython 3.xの質問