ドロップアウト用いても過学習が起きてしまう

Question

CNNを用いて画像認識を行いたいのですが、過学習が起きてしまっています。
自分なりに調べてドロップアウトも実装したのですが原因が分かりません。

![イメージ説明](7c24ea52dd523cbe7d90a5b834ec814c.jpeg)


### 発生している問題・エラーメッセージ

過学習が起きてしまう

### 該当のソースコード


X = []
Y = []

for picture in list_pictures(r'C:\Users\Blouse'):
    img = img_to_array(load_img(picture, target_size=(64,64)))
    X.append(img)
    Y.append(0)
for picture in list_pictures(r'C:\Users\Top'):
    img = img_to_array(load_img(picture, target_size=(64,64)))
    X.append(img)
    Y.append(1)
for picture in list_pictures(r'C:\Users\Jacket'):
    img = img_to_array(load_img(picture, target_size=(64,64)))
    X.append(img)
    Y.append(2)
for picture in list_pictures(r'C:\Users\Jeans'):
    img = img_to_array(load_img(picture, target_size=(64,64)))
    X.append(img)
    Y.append(3)
for picture in list_pictures(r'C:\Users\Skirt'):
    img = img_to_array(load_img(picture, target_size=(64,64)))
    X.append(img)
    Y.append(4)
    
X = np.asarray(X)
Y = np.asarray(Y)

X = X.astype('float32')
X = X / 255.0

Y = to_categorical(Y, 5)

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.33, random_state=111)

model = Sequential()

model.add(Conv2D(32, (3, 3), padding='same',
                 input_shape=X_train.shape[1:]))
model.add(Activation('relu'))
model.add(Conv2D(32, (3, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(0.25))

model.add(Conv2D(64, (3, 3), padding='same'))
model.add(Activation('relu'))
model.add(Conv2D(64, (3, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(0.25))

model.add(Flatten())
model.add(Dense(512))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(5))       
model.add(Activation('softmax'))

model.compile(loss='categorical_crossentropy',
              optimizer='SGD',
              metrics=['accuracy'])

history = model.fit(X_train, y_train, batch_size=5, epochs=200,
                   validation_data = (X_test, y_test), verbose = 0)

plt.plot(history.history['accuracy'])
plt.plot(history.history['val_accuracy'])
plt.title('model accuracy')
plt.xlabel('epoch')
plt.ylabel('accuracy')
plt.legend(['accuracy', 'val_accuracy'], loc='lower right')
plt.show()


### 試したこと

ここに問題に対して試したことを記載してください。

### 補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

Accepted Answer

結論としては、BatchNormalizationを適用するとうまくいくと思います。

過学習の対策としては、以下が推奨されます。

- データを増やす。  *データ拡張を含む（画像解析におけるデータ拡張は常識的な手法）
- モデルを単純化する（与えられた問題やデータに対して、モデルが複雑すぎる）。
- データの汎用的な特徴を捉えられるように、特徴量選択を工夫したり、モデルを見直したりする。  *ResNetもその1つ
- 大量の類似分野のデータで学習済のモデルを元に、転移学習やファインチューニングをする。
- BatchNormalizationを活用する。  *簡単に効果を得やすい
- Dropoutを活用する。 *BNに対して効果は低く、補完程度の役割
- 正則化する。 *古い教科書には記述されているが、ほぼ絶滅した手法

Cifar10のデータセットから5クラスを取り出して、質問者様のモデルを訓練してみました。

- そのまま実行。loss = nan となって学習が進みません。
- optimizerをAdamに変更。学習は進みますが、質問者様と同様に、過学習の傾向が出ます。
- BatchNormalizationをモデルに追加。きれいに学習が進みます。

結果はこちらです。質問者様と異なるデータセットを使っていますので、参考程度にしてください。

![イメージ説明](f9e6a2a91f4585fe88da72fefb3b1575.png)

今回は、質問者様のモデルのすべてのActivateionレイヤーの前にBatchNormalizationを追加しました。BatchNormalizationを入れる場合はDropoutを入れないほうが良いと言われていますが、ケースバイケースです。今回はDropoutはそのまま残しています。なお、バッチサイズを変更しましたが、本質的な違いではありません。

最後に試したコードを示します。Colabで実行していますが、TPUを利用しているため、質問者様のコードからだいぶ変わっていると思います。

```Python
import numpy as np
import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense, Conv2D, Activation, MaxPooling2D, Flatten, Dropout, BatchNormalization
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.datasets import cifar10

(x_train, y_train), (x_test, y_test) = cifar10.load_data()

num = 5
X_train = x_train[y_train[:,0] < num].astype('float32') / 255.0
y_train = to_categorical(y_train[y_train[:,0] < num], num).astype('float32')
X_test = x_test[y_test[:,0] < num].astype('float32') / 255.0
y_test = to_categorical(y_test[y_test[:,0] < num], num).astype('float32')

def create_model():
    model = Sequential()

    model.add(Conv2D(32, (3, 3), padding='same',
    input_shape=X_train.shape[1:]))
    model.add(BatchNormalization())
    model.add(Activation('relu'))
    model.add(Conv2D(32, (3, 3)))
    model.add(BatchNormalization())
    model.add(Activation('relu'))
    model.add(MaxPooling2D(pool_size=(2, 2)))
    model.add(Dropout(0.25))

    model.add(Conv2D(64, (3, 3), padding='same'))
    model.add(BatchNormalization())
    model.add(Activation('relu'))
    model.add(Conv2D(64, (3, 3)))
    model.add(BatchNormalization())
    model.add(Activation('relu'))
    model.add(MaxPooling2D(pool_size=(2, 2)))
    model.add(Dropout(0.25))

    model.add(Flatten())
    model.add(Dense(512))
    model.add(BatchNormalization())
    model.add(Activation('relu'))
    model.add(Dropout(0.5))
    model.add(Dense(5))       
    model.add(BatchNormalization())
    model.add(Activation('softmax'))
    return model

import os
tpu_grpc_url = "grpc://" + os.environ["COLAB_TPU_ADDR"]
tpu_cluster_resolver = tf.distribute.cluster_resolver.TPUClusterResolver(tpu_grpc_url)
tf.config.experimental_connect_to_cluster(tpu_cluster_resolver) # TF2.0の場合、ここを追加
tf.tpu.experimental.initialize_tpu_system(tpu_cluster_resolver) # TF2.0の場合、今後experimentialが取れる可能性がある    
strategy = tf.distribute.experimental.TPUStrategy(tpu_cluster_resolver)  # ここも同様

with strategy.scope():
    model = create_model()
    loss = tf.keras.losses.CategoricalCrossentropy()
    acc = tf.keras.metrics.CategoricalAccuracy()
    optim = tf.keras.optimizers.Adam()

    # train
    model.compile(optimizer=optim, loss=loss, metrics=[acc])
    history = model.fit(X_train, y_train, batch_size=32, epochs=200, validation_data = (X_test, y_test))

%matplotlib inline
import matplotlib.pyplot as plt

plt.plot(history.history['categorical_accuracy'])
plt.plot(history.history['val_categorical_accuracy'])
plt.title('model accuracy')
plt.xlabel('epoch')
plt.ylabel('accuracy')
plt.legend(['accuracy', 'val_accuracy'], loc='lower right')
plt.show()
```

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問