Dropout の論文 Dropout: A Simple Way to Prevent Neural Networks from Overfitting の 「6.5 Comparison with Standard Regularizers」あたりを見ればいいと思います。
ニューロンが他のニューロンと依存関係を持つ co-adaptations が起こると過学習につながるのではないかと仮説を立て、それを防ぐために Dropout を考案したと書かれています。
ニューラルネットワークが過学習する理由について、仮説を述べている部分
In a standard neural network, the derivative received by each parameter tells it how it should change so the final loss function is reduced, given what all other units are doing.
Therefore, units may change in a way that they fix up the mistakes of the other units.
This may lead to complex co-adaptations.
This in turn leads to overfitting because these co-adaptations do not generalize to unseen data.
これに対して、Dropout がどう効果と持つかについて述べた部分
We hypothesize that for each hidden unit,
dropout prevents co-adaptation by making the presence of other hidden units unreliable.
Therefore, a hidden unit cannot rely on other specific units to correct its mistakes.
また副次的な効果として、学習する重みがスパースになる正則化の効果もあるということが確認されています。
We found that as a side-effect of doing dropout, the activations of the hidden units become sparse, even when no sparsity inducing regularizers are present. Thus, dropout automatically leads to sparse representations.
その理由を説明するように求められ勉強を続けていますが、2つの効果について記述されている本や文献を探しても一向に見つからず、理解が及びません
ドロップアウトはあくまで、実験的に性能がよくなると確認された1つのテクニックであり、数学的になぜ性能がよくなるのか証明がなされているわけではないので、理論的な理由付けを探しても見つからないでしょう。
・学習時に一部のユニットのみを用いて出力を計算し、重みを更新することで、一部の重みでも正しい出力を出せるように学習が行われることが非常に重要であること。
・分類問題においてはクラスに属する全ての訓練データに共通する部分を学習できること。
ここで言われていることは、ニューロンがランダムに脱落するので、あるニューロンは他のニューロンに頼らず、それ単体で意味のある特徴に反応するように訓練されるということですね。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。