ゼロから作るディープラーニングのp184での質問です。この書籍を持っている方、もしくはこの書籍を使って勉強をしたことがある方だとイメージしやすいと思います。それ以外の方にはわかりにくいと思うので、お願いします
質問
どうして、「Xavierの初期値」は√1/nで「Heの初期値」は√2/nでnp.random.randnで設定した重みの初期値を割ると、アクティベーション(活性化関数後の出力データ)の表現力が増すのでしょうか?
※詳しく書くと
どうして、「Xavierの初期値」は√1/nで「Heの初期値」は√2/nでnp.random.randnで設定した重みの初期値(平均0、分散1(標準偏差1)の正規分布(標準正規分布)に従う乱数)を割ると、アクティベーション(活性化関数後の出力データ)の表現力が増すのでしょうか?
ご教授お願いします。
回答1件
あなたの回答
tips
プレビュー