回答編集履歴

情報の追加 + 誤字の修正

2018/08/23 00:27

投稿

puroko3

スコア185

answer CHANGED Viewed

@@ -22,9 +22,9 @@
 2.MiniMaxで先読みした評価値を学習させる(DQNでいうQ値なようなもの)。
 より少ない探索で正しい評価が出来るように必要です。
-一手指す毎、もしくは一局終わる毎に正解ラベルを与えればいいと思います。
+一手指す毎、もしくは一局終わる毎に学習させていきます。
 AlphaGoZeroではモンテカルロ法(PUCTアルゴリズム)で8回探索する毎に学習が行われています。
-(教師データのサイズは8*19*19)
+(教師データのサイズは8*19*19 トータル探索数は1600回)
 この時に局面をランダムで回転させる事で、局面が回転しても同じである事を教えています。
 3.最終結果から学習させる。(正解ラベルは負けなら-1 勝ちなら1を与えます)

誤字の修正

2018/08/23 00:26

投稿

puroko3

スコア185

answer CHANGED Viewed

@@ -15,6 +15,7 @@
 ソルバーというゲームがどのようなものかはわかりませんが、オセロ、チェス将棋などのボードゲームのようなものだと仮定してもう少し詳しく実装に触れてみます。
 1.出力層にはTanh関数を使う。
+-1であれば自分の勝率は0% 1であれば自分の勝率は100%として表現します。
 sigmoid関数よりも強い勾配を得られるので、学習がしやすいです。
 ただし重みが大きくなると-1か1しか返さなくなるので、l2ノルムやBatchNormalizationなどを使う事をお勧めします。
 AlphaGoZeroでは両方使われています。
@@ -31,7 +32,7 @@
 AlphaGoZeroでは、50万局毎に全ての局面を用いて、ミニバッチ学習を行っています。
 (最適化手法はMomentum ミニバッチサイズは2024 イテレーション数は1000)
-先読み探索で得られた評価値 + 最終結果から得られた評価値を何かしらのタイミングで学習させていく感じですね。この辺りは完全に模倣しようとせず、手探りや好みで決めてもいいと思います。
+先読み探索で得られた評価値 + 最終結果からの学習を何かしらのタイミングで学習させていく感じですね。この辺りは完全に模倣しようとせず、手探りや好みで決めてもいいと思います。
 ちなみに以下リンクでは、Q値(先読み探索の評価値)の学習とゲーム結果の学習のバランスを変える事でAlphaGoZeroよりもいい結果が得られたという報告があります。
 http://tadaoyamaoka.hatenablog.com/entry/2018/07/01/121411