エラー Number of features of the model must match the inputの解消法

前提・実現したいこと

taitanicの生存率を求めるデータセットで
cross_validateとGridSearchを使用して分析

cross_validateとGridSearchを使用してpredict_proba関数に引数を渡した際に、下記のエラーが発生致しました。

発生している問題・エラーメッセージ

ValueError: Number of features of the model must match the input. Model n_features is 837 and input n_features is 452

ソースコード

python
1#ライブラリimport
2import pandas as pd
3import numpy as np
4from matplotlib import pyplot as plt
5%matplotlib inline
6from sklearn.linear_model import LinearRegression as LR
7#決定着モデルのライブラリ
8from sklearn.tree import DecisionTreeClassifier as DT
9from sklearn.tree import export_graphviz
10#クロスバリデートとグリッドサーチのライブラリ
11from sklearn.model_selection import cross_validate
12from sklearn.model_selection import GridSearchCV
13
14#データ読み込み
15train = pd.read_csv("train.csv")
16test = pd.read_csv("test.csv")
17
18#欠損値の補間
19train["Cabin"]=train["Cabin"].fillna(0)
20test["Cabin"]=test["Cabin"].fillna(0)
21
22train["Name"]=train["Name"]=0
23test["Name"]=test["Name"]=0
24
25train["Embarked"]=train["Embarked"].fillna(0)
26test["Embarked"]=test["Embarked"].fillna(0)
27
28train["Age"] = train["Age"].fillna(train["Age"].mean())
29test["Age"] = test["Age"].fillna(test["Age"].mean())
30
31train["Fare"] = train["Fare"].fillna(train["Fare"].mean())
32test["Fare"] = test["Fare"].fillna(test["Fare"].mean())
33
34#説明変数取り出し
35trainX = train.iloc[:,2:11]
36testX = test.iloc[:,1:10]
37
38#目的変数取り出し
39y = train["Survived"]
40
41#object型を変換するため、ダミー変数化
42trainX = pd.get_dummies(trainX)
43testX = pd.get_dummies(testX)
44
45#cross_validateとGridSearch
46clf3 = DT()
47parameters = {"max_depth":list(range(2,11))}
48gcv = GridSearchCV(clf3,parameters,cv=5,scoring="roc_auc",n_jobs=-1)
49gcv.fit(trainX,y)
50gcv.cv_results_
51train_score = gcv.cv_results_["mean_train_score"]
52test_score = gcv.cv_results_["mean_test_score"]
53pred = gcv.predict_proba(testX)

補足情報（FW/ツールのバージョンなど）

Anaconda3

行動規範の内容に同意します

回答2件

ベストアンサー

python
1trainX = pd.get_dummies(trainX)
2testX = pd.get_dummies(testX)

それぞれ別々にダミー変数に変換してしまうと、インデックスが別々になるので学習データとテストデータで次元数が揃わなくなります。

対処法1

結合してからダミー変数に変換したあともう一回分ける

対処法2

個人的にはそもそもpandasでこの手の処理をやるのは辛いと思うので、sklearnのOneHotEncoderなどでやると良いと思います。
sklearn.preprocessing.OneHotEncoder — scikit-learn 0.20.3 documentation

投稿2019/03/19 13:14

hayataka2049

総合スコア30933

mintia123

2019/03/19 14:29

ありがとうございます。下記のように「対処法１」を試したところ実行できました。 ---------------------------------------------- union = pd.concat([trainX,testX]) union = pd.get_dummies(union) trainX = union.iloc[0:891,:] testX = union.iloc[891:1309,:] ---------------------------------------------- 後ほど教えていただけた「対処方２」も試してみます。

行動規範の内容に同意します