トップに関する質問学習データでの精度がいいのに、未知データに対する予測が悪い場合の対策方法が知りたい

編集履歴

質問編集履歴

optunaからベイズ最適化に変更

2021/03/27 03:53

投稿

TakoyakiOishii

スコア16

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -126,7 +126,7 @@
 ```
-###Optunaを使用して学習
+###ベイズ最適化(optunaから修正)を使用して学習
 ```python
 #空のレイヤー作成

正則化した場合の出力を追加。

2021/03/27 03:53

投稿

TakoyakiOishii

スコア16

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -292,10 +292,19 @@
 ##--------------------------------追記-------------------------------------
 以下のように設定し、それぞれのf1スコアを見れるようにしました。
+###オーバーサンプリング
 ![イメージ説明](f23479055923564b1783c29e366ceac9.png)
 ![イメージ説明](d5de6b2ddea48fe71d302bc01a0a8a2e.png)
 一番上が、ほとんど0.8台ですが、これでえられたハイパーパラメータを使用しても、0.4台のf1-scoreとなりました。
+###アンダーサンプリング
+後ほど追加
+###正則化しただけ(オーバーフィッティング、アンダーサンプリングなし)
+![イメージ説明](02174da2dd9ae01b6c22a41e2df3ddb7.png)
+![イメージ説明](7110ff6be786b23a03c6089673a26a61.png)
 #####---------------追記終わり---------------
 ### 試したこと

コード全体を記述

2021/03/27 03:27

投稿

TakoyakiOishii

スコア16

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -14,19 +14,146 @@
 (色々手探りで1週間ほどやっていたので、最終がこれです。一番良かったのは、xgBoostingでやった場合でしたが、精度が上がらなかったので、kerasに変えて再挑戦しました。)
 return の値は、3がMAXになるようにしています。
+#コード全容(追記部分)
+###データの準備
 ```python
+import numpy as np
+import pandas as pd
+from pandas import Series, DataFrame
+import sklearn
+from sklearn.model_selection import train_test_split
+import tensorflow as tf
+from tensorflow import keras
+import pathlib
+from keras import optimizers
+from tensorflow.keras import layers
+from sklearn import datasets
+from keras.models import Sequential
+from keras.layers.core import Dense, Activation
+from bayes_opt import BayesianOptimization
+import pandas as pd
+test = pd.read_csv("/content/drive/MyDrive/competition/ツイッターのボット/test.tsv",index_col="id",sep='\t')
+train = pd.read_csv("/content/drive/MyDrive/competition/ツイッターのボット/train.tsv",index_col="id",sep='\t')
+```
+###ダミー変数化
+```python
+#GetDummiesで数値をダミー変数化
+train = pd.get_dummies(train, columns=['default_profile', 'default_profile_image',"geo_enabled"])
+##互いに相関が高いものを排除
+train = train.drop(columns=["default_profile_0","default_profile_image_0","geo_enabled_0"])
+test = pd.get_dummies(test, columns=['default_profile', 'default_profile_image',"geo_enabled"])
+##互いに相関が高いものを排除
+test = test.drop(columns=["default_profile_0","default_profile_image_0","geo_enabled_0"])
+```
+###学習データを教師データと、学習データに分類
+```python
+train_ = train.drop(columns="bot")
+test_ = train["bot"]
+```
+###正則化
+```python
+def normalization(x,y):
+  return (x - y['mean']) / y['std']
+#学習データに対して
+train_stats = train_.describe()
+train_stats_T = train_stats.transpose()
+normed_train_X = normalization(train_,train_stats_T)
+#テストデータに対して
+test_stats = test.describe()
+test_stats_T = test_stats.transpose()
+normed_test = normalization(test,test_stats_T)
+normed_train = pd.concat([normed_train_X,test_],axis=1)
+```
+###アンダーサンプリング
+```python
+test_df=pd.DataFrame(test_)
+# Class count
+count_class_0, count_class_1 = normed_train["bot"].value_counts()
+#1345 243
+# Divide by class
+df_class_0 = normed_train[normed_train['bot'] == 0]
+df_class_1 = normed_train[normed_train['bot'] == 1]
+#ここで、一気にアンダー化する。
+df_class_0_under = df_class_0.sample(count_class_1)
+df_test_under = pd.concat([df_class_0_under, df_class_1], axis=0)
+print('Random under-sampling:')
+print(df_test_under["bot"].value_counts())
+train_under_train=df_test_under.drop(columns="bot")
+train_under_test=df_test_under["bot"]
+```
+###オーバーサンプリングの場合
+```python
+!pip install imblearn
+from imblearn.over_sampling import SMOTE
+sm = SMOTE()
+x_resampled, y_resampled = sm.fit_resample(normed_train_X, test_)
+```
+###学習データと、教師データ、評価データに分類
+```python
+#normed_train_X test_は、普通の正則化しただけのデータ
+#train_under_train、train_under_testは、アンダーサンプリング
+#x_resampled,y_resampledは、オーバーサンプリングの場合のデータ
+#上記のいずれかを使う
+from sklearn.model_selection import train_test_split
+x_train, x_test, y_train, y_test = train_test_split(normed_train_X, test_, test_size = 0.2,random_state=0,stratify=pd.DataFrame(test_).bot)
+x_train, x_valid, y_train, y_valid = train_test_split(x_train, y_train, test_size = 0.2,random_state=0,stratify=pd.DataFrame(y_train).bot)
+```
+###Optunaを使用して学習
+```python
+#空のレイヤー作成
+df = pd.DataFrame(index=[])
 from sklearn.model_selection import StratifiedKFold
 from sklearn.metrics import f1_score
-kf = StratifiedKFold(n_splits=5, random_state=42)
 f1_list=[]
+score_valid_list =[]
+score_test_list =[]
-def buildModel(lr, batch_size,N,ur,num):
+score_train_list =[]
+score_list =[]
+N_list=[]
+batch_size_list=[]
+lr_list=[]
+layer_list=[]
+ur_list=[]
+target_list=[]
+def buildModel(lr, batch_size,N,layer):
   model = Sequential()
-  model.add(Dense(4, activation="relu", input_shape=[len(x_train.keys(),)]))
+  model.add(Dense(10, activation="relu", input_shape=[len(x_train.keys(),)]))
-  for i in range(int(num)):
+  for i in range(int(layer)):
     model.add(Dense(3, activation="relu"))
   model.add(Dense(1,activation="sigmoid"))
@@ -38,22 +165,36 @@
   model.fit(x_train, y_train,epochs=int(N),batch_size=int(batch_size))
       #テストデータで精度を確認
+  for i in range(10):
-  score_valid = f1_score(model.predict(x_valid)>ur, y_valid)
+    score_valid = f1_score(model.predict(x_valid)>i*0.1, y_valid)
-  score_test = f1_score(model.predict(x_test)>ur, y_test)
+    score_test = f1_score(model.predict(x_test)>i*0.1, y_test)
-  score_train= f1_score(model.predict(x_train)>ur, y_train)
+    score_train= f1_score(model.predict(x_train)>i*0.1, y_train)
-  print("------------------------------")
+    print("------------------------------")
-  print(score_train,score_valid,score_test)
+    print("score_train",score_train,"score_valid:",score_valid,"score_test",score_test)
-  score = score_valid+score_test+score_train
+    score = score_valid+score_test+score_train
+    if(score!=0):
+      score_train_list.append(score_train)
+      score_valid_list.append(score_valid)
+      score_test_list.append(score_test)
+      score_list.append(score)
+      N_list.append(N)
+      batch_size_list.append(batch_size)
+      lr_list.append(lr)
+      layer_list.append(layer)
+      ur_list.append(i*0.1)
   return score
 def bayesOpt():
     pbounds = {
         'batch_size' : (10,100),
-        'lr' : (0.01, 1.0),
+        'lr' : (0.0001, 0.01),
-        "N":(50, 200),
+        "N":(50, 150),
-        "ur":(0, 1),
-        "num":(0,8)
+        "layer":(0,8)
     }
     optimizer = BayesianOptimization(f=buildModel, pbounds=pbounds)
     optimizer.maximize(init_points=5, n_iter=100, acq='ucb')
@@ -61,10 +202,94 @@
 study = bayesOpt()
+```
+###ここでデータフレームに、lr、layer_listなど、入れていつでも観れるようにする。
-study.res
+```python
+val_train_matchlist =pd.Series(score_valid_list).round(1)==pd.Series(score_train_list).round(1)
+test_val_matchlist =pd.Series(score_test_list).round(1)==pd.Series(score_valid_list).round(1)
+#val_train_matchlist =(pd.Series(score_valid_list)-pd.Series(score_train_list)).abs()
+#test_val_matchlist =(pd.Series(score_test_list)-pd.Series(score_valid_list)).abs()
+df["score"]=pd.Series(score_list)
+df["score_train"]=pd.Series(score_train_list)
+df["score_valid"]=pd.Series(score_valid_list)
+df["score_test"]=pd.Series(score_test_list)
+df["unoverfitting_val_train"]=val_train_matchlist
+df["unoverfitting_test_val"]=test_val_matchlist
+df["unoverfitting"]=val_train_matchlist==test_val_matchlist
+#df["overfitting"]=(val_train_matchlist+test_val_matchlist)/2
+df["batch_size"]=pd.Series(batch_size_list)
+df["N"]=pd.Series(N_list)
+df["layer"]=pd.Series(layer_list)
+df["ur"]=pd.Series(ur_list)
+df["lr_list"]=pd.Series(lr_list)
 ```
+###上記で、入れたものデータフレームを視覚化
+```python
+pd.set_option('display.max_rows', 1600)
+Overfitting_check=df[df["unoverfitting"]==True].sort_values("score",ascending=False)
+Overfitting_check[Overfitting_check["unoverfitting_val_train"]==True]
+```
+###学習データを増やす+先ほど得られたハイパーパラメータを記述。
+```python
+from sklearn.model_selection import train_test_split
+import matplotlib.pyplot as plt
+from sklearn.metrics import confusion_matrix
+loss_list=[]
+x_train, x_test, y_train, y_test = train_test_split(train_under_train, train_under_test, test_size = 0.1,random_state=0)
+lr=0.002052
+batch_size=44.888441
+N=90.036519
+ur=0.5
+layer=5.056227
+model2 = Sequential()
+model2.add(Dense(10, activation="relu", input_shape=[len(x_train.keys(),)]))
+for i in range(int(layer)):
+  model2.add(Dense(3, activation="relu"))
+model2.add(Dense(1,activation="sigmoid"))
+optimizer = optimizers.Adam(lr)
+model2.compile(loss='binary_crossentropy', optimizer=optimizer,metrics=["accuracy"])
+history=model2.fit(x_train, y_train,epochs=int(N),batch_size=int(batch_size),validation_split=0.1)
+#テストデータで精度を確認
+score_test = f1_score(model2.predict(x_test)>ur, y_test)
+print(confusion_matrix(y_test, model2.predict(x_test)>ur))
+print("------------------------------")
+print(score_test)
+#plt.plot(history.history['accuracy'])
+plt.plot(history.history['loss'])
+plt.plot(history.history['val_loss'])
+plt.show()
+```
+###ここで、未知データ(testのデータ)に対して学習
+```python
+pd.set_option('display.max_rows', 1600)
+pred=model.predict(normed_test)>ur
+test_data =pd.DataFrame(pred.astype(np.int))
+print(test_data)
+```
 ##--------------------------------追記-------------------------------------
 以下のように設定し、それぞれのf1スコアを見れるようにしました。
 ![イメージ説明](f23479055923564b1783c29e366ceac9.png)

orberfittingをunoberfittingに変更

2021/03/26 06:28

投稿

TakoyakiOishii

スコア16

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -67,7 +67,7 @@
 ##--------------------------------追記-------------------------------------
 以下のように設定し、それぞれのf1スコアを見れるようにしました。
-![イメージ説明](9915c857ee78e721987770ac286e5841.png)
+![イメージ説明](f23479055923564b1783c29e366ceac9.png)
 ![イメージ説明](d5de6b2ddea48fe71d302bc01a0a8a2e.png)
 一番上が、ほとんど0.8台ですが、これでえられたハイパーパラメータを使用しても、0.4台のf1-scoreとなりました。

f1スコア

2021/03/25 13:39

投稿

TakoyakiOishii

スコア16

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -65,6 +65,14 @@
 study.res
 ```
+##--------------------------------追記-------------------------------------
+以下のように設定し、それぞれのf1スコアを見れるようにしました。
+![イメージ説明](9915c857ee78e721987770ac286e5841.png)
+![イメージ説明](d5de6b2ddea48fe71d302bc01a0a8a2e.png)
+一番上が、ほとんど0.8台ですが、これでえられたハイパーパラメータを使用しても、0.4台のf1-scoreとなりました。
+#####---------------追記終わり---------------
 ### 試したこと
 xGBoosting、keras、pytorch、その他downsizing、1に重み付け、k-fold等を行いました。

修正

2021/03/25 13:32

投稿

TakoyakiOishii

スコア16

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -68,7 +68,8 @@
 ### 試したこと
 xGBoosting、keras、pytorch、その他downsizing、1に重み付け、k-fold等を行いました。
-が、結局学習データ、評価データ、テストデータの精度がいいのに、SIGNATEに置いてある未知データの精度が悪いと言うことが起こってしまっています。学習データに対するアウトプットは、f-means test,train,valそれぞれ0.8程。未知データに対するoutputは、0.5~0.6程のf1値なので困っています。
+が、結局学習データ、評価データ、テストデータの精度がいいのに、SIGNATEに置いてある未知データの精度が悪いと言うことが起こってしまっています。学習データに対するアウトプットは、未知データに対するoutputは、0.5~0.6程のf1値なので困っています。
+一応この後に、学習データを増すためにテストデータと学習データにわけて訓練してますが、そこでのテストデータのf1-measureは、0.8ほどとなっています。
 ### 最後に
 はじめに戻りますが、学習データでの精度がいいのに、未知データの精度が悪い場合、どうやって改善すればいいでしょうか？学習データ、テストデータ、評価データを見てもか学習している感じではないのですが...

少し変更

2021/03/24 16:15

投稿

TakoyakiOishii

スコア16

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -4,7 +4,7 @@
 ### 何をしているのか
 現在、練習のためSIGNATEの練習問題(ボットの判別:https://signate.jp/competitions/124/data)
-を解いています。
+を解いています。なお、不均衡データです。
 目標値がF1-Scoreなのですが、学習データでの精度がいいのにも関わらず、未知データに対して精度が出ないと言うことが起こってしまっています。
@@ -68,7 +68,7 @@
 ### 試したこと
 xGBoosting、keras、pytorch、その他downsizing、1に重み付け、k-fold等を行いました。
-が、結局学習データ、評価データ、テストデータの精度がいいのに、SIGNATEに置いてある未知データの精度が悪いと言うことが起こってしまっています。学習データに対するアウトプットは、f-means 0.8程。未知データに対するoutputは、0.5~0.6程のf1値なので困っています。
+が、結局学習データ、評価データ、テストデータの精度がいいのに、SIGNATEに置いてある未知データの精度が悪いと言うことが起こってしまっています。学習データに対するアウトプットは、f-means test,train,valそれぞれ0.8程。未知データに対するoutputは、0.5~0.6程のf1値なので困っています。
 ### 最後に
 はじめに戻りますが、学習データでの精度がいいのに、未知データの精度が悪い場合、どうやって改善すればいいでしょうか？学習データ、テストデータ、評価データを見てもか学習している感じではないのですが...