多クラス分類におけるドロップアウトの効果について

再掲です。

研究でCNNを用いた多クラス分類問題を扱っているのですが、
論文に理論を書く際にドロップアウトについての説明が違うと言われ困っています。

ドロップアウトを行うことで訓練データが提示される度にユニットの出力をランダムで0にするので訓練データ提示のたびにネットワーク構造が変わり、それらのネットワーク出力の平均が最終的な出力になることからアンサンブル学習のような効果が得られるため汎化性能が高まる。

といったように理解していたのですが、実際には1つのネットワークに対して出力の平均を出すことはできないのでドロップアウトにおいてアンサンブル学習を用いた説明はできないとのことで現在は、多クラス分類におけるドロップアウトの効果を説明するように求められ、

・学習時に一部のユニットのみを用いて出力を計算し、重みを更新することで、一部の重みでも正しい出力を出せるように学習が行われることが非常に重要であること。

・分類問題においてはクラスに属する全ての訓練データに共通する部分を学習できること。

以上の２点がドロップアウトにおける重要な効果であり、その理由を説明するように求められ勉強を続けていますが、２つの効果について記述されている本や文献を探しても一向に見つからず、理解が及びません...

情報があればご教授お願いします。

行動規範の内容に同意します

回答1件

ベストアンサー

Dropout の論文 Dropout: A Simple Way to Prevent Neural Networks from Overfitting の「6.5 Comparison with Standard Regularizers」あたりを見ればいいと思います。

ニューロンが他のニューロンと依存関係を持つ co-adaptations が起こると過学習につながるのではないかと仮説を立て、それを防ぐために Dropout を考案したと書かれています。

ニューラルネットワークが過学習する理由について、仮説を述べている部分

In a standard neural network, the derivative received by each parameter tells it how it should change so the ﬁnal loss function is reduced, given what all other units are doing.
Therefore, units may change in a way that they ﬁx up the mistakes of the other units.

This may lead to complex co-adaptations.

This in turn leads to overﬁtting because these co-adaptations do not generalize to unseen data.

これに対して、Dropout がどう効果と持つかについて述べた部分

We hypothesize that for each hidden unit,

dropout prevents co-adaptation by making the presence of other hidden units unreliable.

Therefore, a hidden unit cannot rely on other speciﬁc units to correct its mistakes.

また副次的な効果として、学習する重みがスパースになる正則化の効果もあるということが確認されています。

We found that as a side-eﬀect of doing dropout, the activations of the hidden units become sparse, even when no sparsity inducing regularizers are present. Thus, dropout automatically leads to sparse representations.