前提・実現したいこと
最後予測するところでエラーが出ます
発生している問題・エラーメッセージ
ValueError Traceback (most recent call last) <ipython-input-106-badfaf7f9db2> in <module> 2 lr = LogisticRegression() 3 lr.fit(x_train, y_train) ----> 4 lr.predict(x_test) /opt/conda/lib/python3.6/site-packages/sklearn/linear_model/base.py in predict(self, X) 287 Predicted class label per sample. 288 """ --> 289 scores = self.decision_function(X) 290 if len(scores.shape) == 1: 291 indices = (scores > 0).astype(np.int) /opt/conda/lib/python3.6/site-packages/sklearn/linear_model/base.py in decision_function(self, X) 268 if X.shape[1] != n_features: 269 raise ValueError("X has %d features per sample; expecting %d" --> 270 % (X.shape[1], n_features)) 271 272 scores = safe_sparse_dot(X, self.coef_.T, ValueError: X has 4 features per sample; expecting 5
該当のソースコード
# 欠損値の補完 train_age_mean = train['Age'].mean() train.fillna(value={'Age':train_age_mean}, inplace=True) train['Age'] = train['Age'].astype(int) # 特徴量の削除 train.drop('PassengerId', axis=1, inplace=True) train.drop('Name', axis=1, inplace=True) train.drop('Ticket', axis=1, inplace=True) train.drop('Cabin', axis=1, inplace=True) train.drop('Embarked', axis=1, inplace=True) # 特徴量の値の変化 train.replace({'male':0, 'female':0}, inplace=True) # 特徴量エンジニアリング train['familysize'] = train['SibSp'] + train['Parch'] + 1 train.drop('SibSp', axis=1, inplace=True) train.drop('Parch', axis=1, inplace=True) #train['Fare'] = train['Fare'].astype(int) train.drop(train.columns[np.isnan(train).any()], axis=1, inplace=True) # 欠損値の補完 test_age_mean = test['Age'].mean() test.fillna(value={'Age':test_age_mean}, inplace=True) test['Age'] = test['Age'].astype(int) # 特徴量の削除 test.drop('PassengerId', axis=1, inplace=True) test.drop('Name', axis=1, inplace=True) test.drop('Ticket', axis=1, inplace=True) test.drop('Cabin', axis=1, inplace=True) test.drop('Embarked', axis=1, inplace=True) # 特徴量の値の変化 test.replace({'male':0, 'female':0}, inplace=True) # 特徴量エンジニアリング test['familysize'] = test['SibSp'] + test['Parch'] + 1 test.drop('SibSp', axis=1, inplace=True) test.drop('Parch', axis=1, inplace=True) #train['Fare'] = train['Fare'].astype(int) test.drop(test.columns[np.isnan(test).any()], axis=1, inplace=True) train # 説明変数と目的変数の定義 train = train[train.columns[::-1]] x_train = train.loc[:, :'Pclass'] y_train = train.loc[:, 'Survived'] x_test = test x_test # モデルの作成 lr = LogisticRegression() lr.fit(x_train, y_train) lr.predict(x_test)
試したこと
色々調べた
補足情報(FW/ツールのバージョンなど)
ここにより詳細な情報を記載してください。
ソースコードとエラーコードを質問に追記してください。
コード中のLogisticRegressionは「sklearn.linear_model.LogisticRegression」のことですか? 別のものですか?
そうです。データの読み込みとモジュールのインポートは省かせていただきました
エラーメッセージによると、featureの数が想定と違うとのことなので、x_trainとx_testの中身(列数?)を確認して修正すれば良さそうですが。
※対策済みであれば、「試したこと」に追記ください。
列数を確認してみた結果なぜかテスト用に一つ特徴量が少なかったです。しかし前処理では同じことを書いているのに学習用とテスト用では特徴量が違うのでしょうか
データが提示されていないので何故かはわかりませんが、処理が全く同じであれば最初から1列不足していたのでは?
回答1件
あなたの回答
tips
プレビュー