dropoutを使うと、学習前半でtrain_lossがval

kerasで回帰タスクを学習しているのですが、Dropoutを設定すると、epochsの前半でtrain_lossとval_lossが逆転してしまいます。
データを提示できる、また、公開データだと再現できない中での質問で恐縮ですが、なぜこういうことが起こるのでしょうか？

なお、データ数400、特徴量数900くらいの横長のcsvデータを学習しています。

Dropoutありのコード

Python
1# モジュールやデータ読み込みは省略
2model = keras.models.Sequential()
3model.add(keras.layers.Dense(30, activation='relu', input_dim=X_prepared.shape[1]))
4model.add(keras.layers.Dropout(0.3))
5model.add(keras.layers.Dense(10, activation='relu'))
6model.add(keras.layers.Dropout(0.3))
7model.add(keras.layers.Dense(1))
8model.compile(loss='mean_squared_error')
9
10history = model.fit(X_train, y_train, epochs=1000, validation_data=(X_valid, y_valid))

Dropoutなしのコード

Python
1# モジュールやデータ読み込みは省略
2model = keras.models.Sequential()
3model.add(keras.layers.Dense(30, activation='relu', input_dim=X_prepared.shape[1]))
4# model.add(keras.layers.Dropout(0.3))
5model.add(keras.layers.Dense(10, activation='relu'))
6# model.add(keras.layers.Dropout(0.3))
7model.add(keras.layers.Dense(1))
8model.compile(loss='mean_squared_error')
9
10history = model.fit(X_train, y_train, epochs=1000, validation_data=(X_valid, y_valid))

Dropoutありの学習曲線

Dropoutなしの学習曲線

行動規範の内容に同意します

回答1件

ベストアンサー

それ（学習の初期のうちに訓練データに適応し過ぎてしまうことを防ぐこと）こそがドロップアウトの目的だと思うのですが。

投稿2021/06/18 04:36

quickquip

総合スコア11299

MagMag

2021/06/18 05:02 編集

ありがとうございます。 dropoutが過学習防止目的なのは理解しているつもりですが、それは、上のグラフのtrain_lossと下のグラフのtrain_lossを比較し、上のグラフ(dropoutあり)の方がloss値が大きくなる形で現れている（逆に、val_lossは上の方が低くなっている）のでは、と考えています。一方、1つの学習曲線でtrain_lossとval_lossを比較した時に、これが逆転することと、Dropoutによる過学習防止というのが、自分の中では必ずしもイコールに感じられなく、質問しました。 trainではランダムでdropoutするのでloss値が高くなる一方、valの時はtrainで確定したニューロンで計算する（dropoutしない）ので、学習初期ではlossが低くなることもある、学習後半はdropoutに十分強いロバストなニューロンになっているので、valよりtrain_lossが低くなる、という捉え方であれば腑に落ちるのですが、違う理由があるのかも、と思った次第です。