External Sampling CFRのアルゴリズムの勉強をしています。
PureCFRと違い、更新対象のプレイヤー以外のプレイヤーの行動は、戦略の確率分布からランダムに選択されますが、つまりは確率的に発生頻度が少ない(プレイヤーがあまり取らない)行動がとられた場合のナッシュ均衡は求められないということでしょうか。
例えばターン制のゲームで、特定の状況で明らかにAの行動のほうが有利な場合、プレイヤーはAの行動を積極的に選択する戦略になりますよね。
その場合、Bという行動に分岐することが無くなるのではないでしょうか。
あなたの回答
tips
プレビュー