DQNを実装したいです

ターン制のボードゲームを学習させたいと考えています。今のところ、DQNを用いて、自己対局によって学習させようと考えているのですが、盤面(state)によって起こせる行動(action)が変化してしまうため、状態を入力とし、それぞれの行動の価値を出力するニューラルネットワークがつくれません。(出力層の数が一定でないので) どのようにすればよいのでしょうか。また、DQN以外で良い手法がある場合は教えていただきたいです。

aokikenichi

2020/09/27 07:31

ターン制のボードゲームならばDQNなどにハマりやすいかと思いますが。 DQNの対象のものは基本的にすべて盤面によって起こせる行動が変化すると思います。どういう条件でしょうか

退会済みユーザー

2020/09/27 09:37

二人(白対黒)で行うゲームで、横5マス、縦6マスのボードを使います。始めはそのボードの両端には片方は全て白のコマ5こが、もう片方には黒のコマ5個があります。それらのコマは全て縦横斜め一マスいずれかに動かせます。また、各コマは最大3段になるまで他のコマの上になることができて、相手のコマを全て動かせなくなれば勝ちとなります。一応他にもルールはあるのですが、上のルールの場合どうなるでしょうか。分かり辛くてすみません。ご教授よろしくお願いします。

退会済みユーザー

2020/09/27 09:48 編集

コマは上に何ものってない場合においてのみ動かせます。

aokikenichi

2020/09/28 03:51

ChainerRLで三目並べを深層強化学習（Double DQN）してみた https://qiita.com/uezo/items/87b25c93199d72a56a9a こういうところから1つずつトライしてみてはいかがでしょうか。最近はAlphaZeroの方が取り組んでいる方が多くコード付き事例も増えていますね