学習データでの精度がいいのに、未知データに対する予測が悪い場合の対策方法が知りたい

Question

### 前提・実現したいこと

学習データでの精度がいいのに、未知データに対する予測が悪い場合の対策方法が知りたいです。

### 何をしているのか
現在、練習のためSIGNATEの練習問題(ボットの判別:https://signate.jp/competitions/124/data)
を解いています。なお、不均衡データです。
目標値がF1-Scoreなのですが、学習データでの精度がいいのにも関わらず、未知データに対して精度が出ないと言うことが起こってしまっています。



### 該当のソースコード
色々試しましたので、最後に試した場合を記述します。
(色々手探りで1週間ほどやっていたので、最終がこれです。一番良かったのは、xgBoostingでやった場合でしたが、精度が上がらなかったので、kerasに変えて再挑戦しました。)
return の値は、3がMAXになるようにしています。

#コード全容(追記部分)
###データの準備
```python

import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import sklearn
from sklearn.model_selection import train_test_split
import tensorflow as tf
from tensorflow import keras
import pathlib
from keras import optimizers
from tensorflow.keras import layers
from sklearn import datasets
from keras.models import Sequential
from keras.layers.core import Dense, Activation
from bayes_opt import BayesianOptimization
import pandas as pd

test = pd.read_csv("/content/drive/MyDrive/competition/ツイッターのボット/test.tsv",index_col="id",sep='	')
train = pd.read_csv("/content/drive/MyDrive/competition/ツイッターのボット/train.tsv",index_col="id",sep='	')
```
###ダミー変数化
```python

#GetDummiesで数値をダミー変数化
train = pd.get_dummies(train, columns=['default_profile', 'default_profile_image',"geo_enabled"])
##互いに相関が高いものを排除
train = train.drop(columns=["default_profile_0","default_profile_image_0","geo_enabled_0"])

test = pd.get_dummies(test, columns=['default_profile', 'default_profile_image',"geo_enabled"])
##互いに相関が高いものを排除
test = test.drop(columns=["default_profile_0","default_profile_image_0","geo_enabled_0"])
```

###学習データを教師データと、学習データに分類
```python

train_ = train.drop(columns="bot")
test_ = train["bot"]
```


###正則化

```python
def normalization(x,y):
  return (x - y['mean']) / y['std']

#学習データに対して
train_stats = train_.describe()
train_stats_T = train_stats.transpose()
normed_train_X = normalization(train_,train_stats_T)

#テストデータに対して
test_stats = test.describe()
test_stats_T = test_stats.transpose()
normed_test = normalization(test,test_stats_T)

normed_train = pd.concat([normed_train_X,test_],axis=1)
```

###アンダーサンプリング

```python
test_df=pd.DataFrame(test_)

# Class count
count_class_0, count_class_1 = normed_train["bot"].value_counts()
#1345 243
 
# Divide by class
df_class_0 = normed_train[normed_train['bot'] == 0]
df_class_1 = normed_train[normed_train['bot'] == 1]

#ここで、一気にアンダー化する。
df_class_0_under = df_class_0.sample(count_class_1)

df_test_under = pd.concat([df_class_0_under, df_class_1], axis=0)

print('Random under-sampling:')
print(df_test_under["bot"].value_counts())

train_under_train=df_test_under.drop(columns="bot")
train_under_test=df_test_under["bot"]
```

###オーバーサンプリングの場合

```python
!pip install imblearn
from imblearn.over_sampling import SMOTE
sm = SMOTE()
x_resampled, y_resampled = sm.fit_resample(normed_train_X, test_)
```


###学習データと、教師データ、評価データに分類
```python
#normed_train_X test_は、普通の正則化しただけのデータ
#train_under_train、train_under_testは、アンダーサンプリング
#x_resampled,y_resampledは、オーバーサンプリングの場合のデータ
#上記のいずれかを使う

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(normed_train_X, test_, test_size = 0.2,random_state=0,stratify=pd.DataFrame(test_).bot)

x_train, x_valid, y_train, y_valid = train_test_split(x_train, y_train, test_size = 0.2,random_state=0,stratify=pd.DataFrame(y_train).bot)
```


###ベイズ最適化(optunaから修正)を使用して学習
```python

#空のレイヤー作成
df = pd.DataFrame(index=[])

from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import f1_score


f1_list=[]
score_valid_list =[]
score_test_list =[]
score_train_list =[]
score_list =[]

N_list=[]
batch_size_list=[]
lr_list=[]
layer_list=[]
ur_list=[]
target_list=[]

def buildModel(lr, batch_size,N,layer):  

  model = Sequential()
  model.add(Dense(10, activation="relu", input_shape=[len(x_train.keys(),)]))
  for i in range(int(layer)):
    model.add(Dense(3, activation="relu"))

  model.add(Dense(1,activation="sigmoid"))
    
  optimizer = optimizers.Adam(lr)
    
  model.compile(loss='binary_crossentropy', optimizer=optimizer,metrics=["accuracy"])
    
  model.fit(x_train, y_train,epochs=int(N),batch_size=int(batch_size))
    
      #テストデータで精度を確認
  for i in range(10):
    score_valid = f1_score(model.predict(x_valid)>i*0.1, y_valid)
    score_test = f1_score(model.predict(x_test)>i*0.1, y_test)
    score_train= f1_score(model.predict(x_train)>i*0.1, y_train)

    print("------------------------------")
    print("score_train",score_train,"score_valid:",score_valid,"score_test",score_test)



    score = score_valid+score_test+score_train
    if(score!=0):
      score_train_list.append(score_train)
      score_valid_list.append(score_valid)
      score_test_list.append(score_test)
      score_list.append(score)
      N_list.append(N)
      batch_size_list.append(batch_size)
      lr_list.append(lr)
      layer_list.append(layer)
      ur_list.append(i*0.1)

  return score

def bayesOpt():
    pbounds = {
        'batch_size' : (10,100),
        'lr' : (0.0001, 0.01),
        "N":(50, 150),
        "layer":(0,8)
    }
    optimizer = BayesianOptimization(f=buildModel, pbounds=pbounds)
    optimizer.maximize(init_points=5, n_iter=100, acq='ucb')
    return optimizer


study = bayesOpt()
```


###ここでデータフレームに、lr、layer_listなど、入れていつでも観れるようにする。

```python
val_train_matchlist =pd.Series(score_valid_list).round(1)==pd.Series(score_train_list).round(1)
test_val_matchlist =pd.Series(score_test_list).round(1)==pd.Series(score_valid_list).round(1) 
#val_train_matchlist =(pd.Series(score_valid_list)-pd.Series(score_train_list)).abs()
#test_val_matchlist =(pd.Series(score_test_list)-pd.Series(score_valid_list)).abs()


df["score"]=pd.Series(score_list)
df["score_train"]=pd.Series(score_train_list)
df["score_valid"]=pd.Series(score_valid_list)
df["score_test"]=pd.Series(score_test_list)
df["unoverfitting_val_train"]=val_train_matchlist
df["unoverfitting_test_val"]=test_val_matchlist

df["unoverfitting"]=val_train_matchlist==test_val_matchlist 
#df["overfitting"]=(val_train_matchlist+test_val_matchlist)/2

df["batch_size"]=pd.Series(batch_size_list)
df["N"]=pd.Series(N_list)
df["layer"]=pd.Series(layer_list)
df["ur"]=pd.Series(ur_list) 
df["lr_list"]=pd.Series(lr_list) 
```

###上記で、入れたものデータフレームを視覚化
```python
pd.set_option('display.max_rows', 1600)
Overfitting_check=df[df["unoverfitting"]==True].sort_values("score",ascending=False)
Overfitting_check[Overfitting_check["unoverfitting_val_train"]==True]
```

###学習データを増やす+先ほど得られたハイパーパラメータを記述。
```python
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix

loss_list=[]
x_train, x_test, y_train, y_test = train_test_split(train_under_train, train_under_test, test_size = 0.1,random_state=0)
lr=0.002052
batch_size=44.888441
N=90.036519
ur=0.5
layer=5.056227
model2 = Sequential()
model2.add(Dense(10, activation="relu", input_shape=[len(x_train.keys(),)]))
for i in range(int(layer)):
  model2.add(Dense(3, activation="relu"))
model2.add(Dense(1,activation="sigmoid"))
    
optimizer = optimizers.Adam(lr)
    
model2.compile(loss='binary_crossentropy', optimizer=optimizer,metrics=["accuracy"])
    
history=model2.fit(x_train, y_train,epochs=int(N),batch_size=int(batch_size),validation_split=0.1)
    
#テストデータで精度を確認
score_test = f1_score(model2.predict(x_test)>ur, y_test)
print(confusion_matrix(y_test, model2.predict(x_test)>ur))
print("------------------------------")
print(score_test)


#plt.plot(history.history['accuracy'])
plt.plot(history.history['loss'])
plt.plot(history.history['val_loss'])


plt.show()
```

###ここで、未知データ(testのデータ)に対して学習

```python
pd.set_option('display.max_rows', 1600)

pred=model.predict(normed_test)>ur
test_data =pd.DataFrame(pred.astype(np.int))

print(test_data)

```

##--------------------------------追記-------------------------------------
以下のように設定し、それぞれのf1スコアを見れるようにしました。
###オーバーサンプリング
![イメージ説明](f23479055923564b1783c29e366ceac9.png)
![イメージ説明](d5de6b2ddea48fe71d302bc01a0a8a2e.png)
一番上が、ほとんど0.8台ですが、これでえられたハイパーパラメータを使用しても、0.4台のf1-scoreとなりました。

###アンダーサンプリング
後ほど追加


###正則化しただけ(オーバーフィッティング、アンダーサンプリングなし)
![イメージ説明](02174da2dd9ae01b6c22a41e2df3ddb7.png)
![イメージ説明](7110ff6be786b23a03c6089673a26a61.png)

#####---------------追記終わり---------------

### 試したこと

xGBoosting、keras、pytorch、その他downsizing、1に重み付け、k-fold等を行いました。
が、結局学習データ、評価データ、テストデータの精度がいいのに、SIGNATEに置いてある未知データの精度が悪いと言うことが起こってしまっています。学習データに対するアウトプットは、未知データに対するoutputは、0.5~0.6程のf1値なので困っています。
一応この後に、学習データを増すためにテストデータと学習データにわけて訓練してますが、そこでのテストデータのf1-measureは、0.8ほどとなっています。

### 最後に
はじめに戻りますが、学習データでの精度がいいのに、未知データの精度が悪い場合、どうやって改善すればいいでしょうか？学習データ、テストデータ、評価データを見てもか学習している感じではないのですが...
お力添えよろしくお願いいたします。

Accepted Answer

学習データでの精度がいいのに、未知データの精度が悪い原因は、**オーバーフィッティングである**と思われます。
対策として、今回のデータの場合は、**深層学習ではない機械学習モデル（GBDT、ランダムフォレスト、ロジスティクス回帰、SVM等）を用い、必要に応じてそれらのアンサンブルをするとよい**でしょう。

1) 今回のデータの特徴

SIGNATEの規約に抵触するのでデータの詳細は説明できませんが、リーダーボードのトップで0.76、100位で0.6台のf1値であることから予想は難しく、質問者様が80%以上のスコアを出したということは**オーバーフィッティングの可能性が高い**です。

また、そもそも、サンプル数が1500程度でしかなく、**深層学習の潜在能力が発揮できない**ようです。

なお、クラス1（botである）の比率は約15%であるため、普通に学習してしまうと、85%の正解率である「全て0とする推論」に最適化されてしまいます。そのため、**不均衡データ学習が必要**です。リーダーボードの基準がf1スコアであること、質問者様がオーバーサンプリングを試みたことは、この不均衡性に由来するものと思います。

2) オーバーフィッティングの原因推定

なぜオーバーフィッティングしてしまったか、およびオーバーフィッティングがx_testまで波及したのはなぜか、について推定します。

2-1) ベイズ最適化の影響

1つはベイズ最適化の影響です。`score = score_valid+score_test+score_train`となっており、x_testの評価結果も一気に最適化してしまっています。**score_testはベイズ最適化の評価に含めない方がよい**でしょう。

2-2) オーバーサンプリングの影響

SMOTEは、同じ説明変数のペアをコピーするわけではありませんが、それでも、「類似の」説明変数のペアを生成することで、オーバーサンプリングを行います。そもそも、予想が難しい問題というのは、説明変数をもとにした単純な分類が通用しないという特性を持っています。そのため、**学習データをもとにした「単純な類似性」によるデータ拡張は、未知データに有効ではなく、学習データにオーバーフィッティングしてしまう**ことになります。（あくまでも、今回のデータの場合、ということで一般的にはオーバーサンプリングが正しい打ち手であることも多いです）

例えば、アパートの住人が201号室と203号室が男性である場合に、「202号室も男性である」というデータ拡張をしているようなものです。実はもっと複雑な条件から推定すべきなのに、無関係な説明変数の補間でデータを「捏造」してしまうため、推論を間違った方向に誘導してしまいます。

3) 対策

冒頭に記述したとおり、今回のSIGNATEのデータの場合は、**深層学習ではない機械学習モデル（GBDT、ランダムフォレスト、ロジスティクス回帰、SVM等）を用い、必要に応じてそれらのアンサンブルをするとよい**でしょう。また、不均衡データの対策としては、オーバーサンプリングはやめて、損失関数をカスタマイズしたりクラス重み付けすることを試してみましょう。

なお、今回のデータは、kaggleの有名な初級課題である**titanicと類似した特徴がある**ようです。titanicもサンプル数が約900と少ない２値分類問題です。私自身、titanicでNNで学習を試みましたがオーバーフィッティングしてしまい、手元のデータだと好成績を出しているはずが未知データの推論結果は思わしくない、ということに遭遇しました。一方、GBDTを使うとそのような影響は軽微になりました。実際、**titanicで好成績を上げた人の解説記事を見ると、みなさん、NNは使われていません**。

参考: [タイタニック号の乗客の生存予測〜80%以上の予測精度を超える方法（モデル構築＆推論編）](https://yolo-kiyoshi.com/2020/01/22/post-1588/)

なお、titanicの場合は前処理も重要なのですが、今回のSIGNATEのデータは比較的きれいなので、その点は異なります。titanicよりも平易であると言えるでしょう。

前提・実現したいこと

何をしているのか

該当のソースコード

試したこと

最後に

関連した質問