「Xavierの初期値」、「Heの初期値」に関する質問

ゼロから作るディープラーニングのp184での質問です。この書籍を持っている方、もしくはこの書籍を使って勉強をしたことがある方だとイメージしやすいと思います。それ以外の方にはわかりにくいと思うので、お願いします

質問
どうして、「Xavierの初期値」は√1/nで「Heの初期値」は√2/nでnp.random.randnで設定した重みの初期値を割ると、アクティベーション（活性化関数後の出力データ）の表現力が増すのでしょうか？

※詳しく書くと
どうして、「Xavierの初期値」は√1/nで「Heの初期値」は√2/nでnp.random.randnで設定した重みの初期値（平均0、分散1（標準偏差1）の正規分布（標準正規分布）に従う乱数）を割ると、アクティベーション（活性化関数後の出力データ）の表現力が増すのでしょうか？

ご教授お願いします。

y_waiwai

2021/06/12 21:11

なんのはなしでしょうか意味不明ですよ

quickquip

2021/06/12 23:06 編集

これ、天ぷらのレシピに「温度は160度で3分」と書いた人に、「どうして160度で3分なんですか?」みたいな質問ですね。解析論文が出てる可能性がありますが、読んでも理解できるとは思えないです。（この質問で言えば数学、天ぷらの温度で言えば化学の知識が要るでしょうが、「どうして」を聞いた人にそれが分かるとは思えません）

kontikuwa

2021/06/12 23:12

要するに我々のような人にはブラックボックスだから、とりあえず、そのまま使えばいいということでしょうか？理解する必要がない（理解できない）ということでしょうか？

quickquip

2021/06/12 23:50 編集

「我々のような人には」の部分を除けば答えはだいたいYes。質問の答えを研究して「なぜそうなるのか?」を明らかにした研究者がいたかどうか、論文があったとしてその結果が支持されているか、私は知らないです。「全人類にとって」ブラックボックスなのか、「あなたやわたしのような人には」ブラックボックスなのか、そこが分かりません。（なので回答ではなくてこの欄で）

kontikuwa

2021/06/12 23:58

難しい。わかりました。ありがとうござます。今思ったんですけど他ので例えると、x^n + y^n = z^n となる自然数の組 (x, y, z) は存在しない（フェルマーの最終定理）のは何でですかという質問に、フェルマーの最終定理を証明した論文があるのでそれを読んでくださいとしか回答できないみたいな感じってことですよね？

quickquip

2021/06/13 00:07

工学分野なので、数学（の予想→同値な命題の発見→証明されて定理）の流れとはちょっと違います。だいたい、まず「こういう実験設定でうまくいった」という論文が出てきて、そのあとで「必ずしもその設定である必要はない。こういう設定でもこういう設定でもうまくいく。このような条件を満たしていればどうやら大丈夫」という論文が出てきて、そのあとで「なぜこのような条件が必要なのか、その論理的背景はこう。ゆえにそれは必要条件である十分条件であると言える」みたいな論文が出てきます。

quickquip

2021/06/13 00:15 編集

もういっこ可能性があることに気づきました。 Xavierの論文がその「論理的背景を論じている論文」で、それさえ読んでしまえば「まぁそりゃそうなるよね」と分かるのかも。まずXavierの論文を読んで、主張を理解しないと **話が始まらない** ですね……。

quickquip

2021/06/13 00:16 編集

質問するならXavierの論文を読んでから、あるいは Xavierの論文を読んだらわかるんでしょうか? という質問にするかでしょうね。

kontikuwa

2021/06/13 00:19

わかりました。ありがとうございます。わざわざ