編集履歴

質問編集履歴

コードおよび一部データの追記

2020/02/01 01:52

投稿

aki123

スコア13

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -3,3 +3,381 @@
 複数のアルゴリズムでTestとTrainを実施したのですが、testがTrainより良くなり、しかも多くのTestが1.0という結果になります（添付参照）。※データは練習用として適当に作成。
 こういったことはあり得るのでしょうか？それとも高い可能性で途中のコードに間違いがあるものでしょうか？![イメージ説明](e2dd6bdea9ae55673ae1082560dba48b.png)
+下記にコードを記載いたします。まだ初心者のため、同じコードを書いたり、見にくいと思いますが、どうぞご容赦いただけたらと思います。
+データは一部のみですが、添付します。leftが目的変数となります。![![イメージ説明](4bc69ff0dfa9c5ea02328c051bc414fc.png)](7ed368c6b255a386d5b29449c363a03b.png)
+```Python
+# salaryとsalesのデータの型をobjectで統一している
+# import sample data: Loan screening data for classification
+ohe_columns = ['sales',
+               'salary']
+my_dtype = {'sales':object,
+               'salary':object}
+import pandas as pd
+df = pd.read_csv('./data/finaldayP.csv',header=0, dtype=my_dtype)
+X = df.iloc[:,[0,2,3,4,5,6,7,8,9,10]]           # 最終列以前を特徴量X
+X = X.drop('index',axis=1)# 1列目はID情報のため特徴量から削除
+y = df.iloc[:,1]            # 2番目を正解データ
+# check the shape
+print('X shape: (%i,%i)' %X.shape)
+print('--------------------')
+print(y.value_counts())
+X.join(y).head()
+#カテゴリカル変数のohe化
+X_new = pd.get_dummies(X,
+                       dummy_na=True,
+                      columns=ohe_columns)
+display(X_new.head())
+print(X_new.shape)
+X_new.describe()
+from sklearn.impute import SimpleImputer
+# インピュータークラスのインスタンス化と（列平均の）学習  imputerは欠損値を平均値や中央値で保管する
+imp = SimpleImputer()
+imp.fit(X_new)
+# 学習済みImputerの適用：各列の欠損値の置換　　前処理の時はtransform　（Predictではない）
+X_ohe_columns = X_new.columns.values
+X_ohe = pd.DataFrame(imp.transform(X_new),columns=X_ohe_columns)
+X=X_ohe
+# 結果表示
+display(X.head())
+# スコアデータの読み込み
+import pandas as pd
+df_s = pd.read_csv('./data/finaldayPtest.csv',header=0, dtype=my_dtype)
+X_s = df_s.iloc[:,[0,2,3,4,5,6,7,8,9,10]]
+X_s = X_s.drop('index',axis=1)
+y_s = df_s.iloc[:,1]
+# check the shape
+print('Raw shape: (%i,%i)' %df_s.shape)
+print('X shape: (%i,%i)' %X_s.shape)
+print('-------------------------------')
+print(X_s.dtypes)
+#スコア用データの前処理：カテゴリ変数の数量化と欠損対応
+X_ohe_s = pd.get_dummies(X_s,
+                         dummy_na=True,
+                         columns=ohe_columns)
+print('X_ohe_s shape:(%i,%i)' % X_ohe_s.shape)
+X_ohe_s.head()
+# Pythonの集合型変数を利用  setを用いることによって差異を見ることができる
+cols_model = set(X_ohe.columns.values)
+cols_score = set(X_ohe_s.columns.values)
+# モデルにはあったスコアにはないデータ項目
+diff1 = cols_model - cols_score
+print('Modelのみ:%s' % diff1)
+# スコアにはあるがモデルになかったデータ項
+diff2 = cols_score - cols_model
+print('Scoreのみ:%s' % diff2)
+df_cols_m = pd.DataFrame(None,
+                         columns=X_ohe_columns,
+                         dtype=float)
+display(df_cols_m)
+X_ohe_s2 = pd.concat([df_cols_m, X_ohe_s])
+print(X_ohe_s2.shape)
+display(X_ohe_s2.head(3))
+#スコアリングにあるが、モデルにない特徴量を削除
+set_Xm = set(X_ohe.columns.values)
+set_Xs = set(X_ohe_s.columns.values)
+X_ohe_s3 = X_ohe_s2.drop(list(set_Xs-set_Xm),axis=1)
+print(X_ohe_s3.shape)
+display(X_ohe_s3.head(3))
+X_ohe_s3.loc[:,list(set_Xm-set_Xs)] = X_ohe_s3.loc[:,list(set_Xm-set_Xs)].fillna(0,axis=1)
+X_ohe_s3.head(3)
+#reindex関数を使うことによって並びを制御。
+X_ohe_s3 = X_ohe_s3.reindex(X_ohe.columns.values,axis=1)
+X_ohe_s3.head(3)
+# isnullが欠損地でそのyes, noをカウントして欠損個数を表示している
+print('欠損個数（数値変数の欠損補完前）',X_ohe_s3.isnull().sum().sum())
+X_ohe_s4 = pd.DataFrame(imp.transform(X_ohe_s3),columns=X_ohe_columns)
+print('欠損個数（数値変数の欠損補完後）',X_ohe_s4.isnull().sum().sum())
+X_fin_s = X_ohe_s4
+print(X_fin_s.shape)
+X_fin_s.head(3)
+X.join(y).head()
+from sklearn.metrics import accuracy_score
+# import libraries
+import numpy as np
+import pandas as pd
+from sklearn.model_selection import train_test_split
+from sklearn.neighbors import KNeighborsClassifier
+from sklearn.linear_model import LogisticRegression
+from sklearn.preprocessing import StandardScaler
+from sklearn.pipeline import Pipeline
+from sklearn.svm import SVC, LinearSVC
+from sklearn.tree import DecisionTreeClassifier
+from sklearn.ensemble import RandomForestClassifier
+from sklearn.ensemble import GradientBoostingClassifier
+from sklearn.neural_network import MLPClassifier
+from sklearn.pipeline import Pipeline
+# Holdout
+X_train,X_test,y_train,y_test = train_test_split(X,
+                                                 y,
+                                                 test_size=0.20,
+                                                 random_state=1)
+# set pipelines for two different algorithms
+pipelines ={
+    'knn': Pipeline([('scl',StandardScaler()),
+                       ('est',KNeighborsClassifier())]),
+    'logistic': Pipeline([('scl',StandardScaler()),
+                          ('est',LogisticRegression(random_state=1))]),
+     'rsvc':
+        Pipeline([('scl',StandardScaler()),
+                  ('est',SVC(C=1.0, kernel='rbf', class_weight='balanced', random_state=1))]),
+    'lsvc':
+        Pipeline([('scl',StandardScaler()),
+                  ('est',LinearSVC(C=1.0, class_weight='balanced', random_state=1))]),
+    'tree':
+        Pipeline([('scl',StandardScaler()),
+                  ('est',DecisionTreeClassifier(random_state=1))]),
+    'rf':
+        Pipeline([('scl',StandardScaler()),
+                  ('est',RandomForestClassifier(random_state=1))]),
+    'gb':
+        Pipeline([('scl',StandardScaler()),
+                  ('est',GradientBoostingClassifier(random_state=1))]),
+    'mlp':
+        Pipeline([('scl',StandardScaler()),
+                  ('est',MLPClassifier(hidden_layer_sizes=(3,3),
+                                       max_iter=1000,
+                                       random_state=1))])
+}
+# fit the models
+for pipe_name, pipeline in pipelines.items():
+    pipeline.fit(X_train,y_train)
+    print(pipe_name, ': Fitting Done')
+print(X.shape)
+print(y.shape)
+from sklearn.metrics import f1_score
+scores = {}
+for pipe_name, pipeline in pipelines.items():
+    scores[(pipe_name,'train')] = accuracy_score(y_train, pipeline.predict(X_train))
+    scores[(pipe_name,'test')] = accuracy_score(y_test, pipeline.predict(X_test))
+pd.Series(scores).unstack()
+```