回答編集履歴
2
情報の追加 + 誤字の修正
test
CHANGED
@@ -46,11 +46,11 @@
|
|
46
46
|
|
47
47
|
より少ない探索で正しい評価が出来るように必要です。
|
48
48
|
|
49
|
-
一手指す毎、もしくは一局終わる毎に
|
49
|
+
一手指す毎、もしくは一局終わる毎に学習させていきます。
|
50
50
|
|
51
51
|
AlphaGoZeroではモンテカルロ法(PUCTアルゴリズム)で8回探索する毎に学習が行われています。
|
52
52
|
|
53
|
-
(教師データのサイズは8*19*19)
|
53
|
+
(教師データのサイズは8*19*19 トータル探索数は1600回)
|
54
54
|
|
55
55
|
この時に局面をランダムで回転させる事で、局面が回転しても同じである事を教えています。
|
56
56
|
|
1
誤字の修正
test
CHANGED
@@ -32,6 +32,8 @@
|
|
32
32
|
|
33
33
|
1.出力層にはTanh関数を使う。
|
34
34
|
|
35
|
+
-1であれば自分の勝率は0% 1であれば自分の勝率は100%として表現します。
|
36
|
+
|
35
37
|
sigmoid関数よりも強い勾配を得られるので、学習がしやすいです。
|
36
38
|
|
37
39
|
ただし重みが大きくなると-1か1しか返さなくなるので、l2ノルムやBatchNormalizationなどを使う事をお勧めします。
|
@@ -64,7 +66,7 @@
|
|
64
66
|
|
65
67
|
|
66
68
|
|
67
|
-
先読み探索で得られた評価値 + 最終結果から
|
69
|
+
先読み探索で得られた評価値 + 最終結果からの学習を何かしらのタイミングで学習させていく感じですね。この辺りは完全に模倣しようとせず、手探りや好みで決めてもいいと思います。
|
68
70
|
|
69
71
|
|
70
72
|
|