質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

753閲覧

機械学習のエラーについて

rikubon_

総合スコア39

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/10/06 13:56

編集2019/10/06 14:57

前提・実現したいこと

最後予測するところでエラーが出ます

発生している問題・エラーメッセージ

ValueError Traceback (most recent call last) <ipython-input-106-badfaf7f9db2> in <module> 2 lr = LogisticRegression() 3 lr.fit(x_train, y_train) ----> 4 lr.predict(x_test) /opt/conda/lib/python3.6/site-packages/sklearn/linear_model/base.py in predict(self, X) 287 Predicted class label per sample. 288 """ --> 289 scores = self.decision_function(X) 290 if len(scores.shape) == 1: 291 indices = (scores > 0).astype(np.int) /opt/conda/lib/python3.6/site-packages/sklearn/linear_model/base.py in decision_function(self, X) 268 if X.shape[1] != n_features: 269 raise ValueError("X has %d features per sample; expecting %d" --> 270 % (X.shape[1], n_features)) 271 272 scores = safe_sparse_dot(X, self.coef_.T, ValueError: X has 4 features per sample; expecting 5

該当のソースコード

# 欠損値の補完 train_age_mean = train['Age'].mean() train.fillna(value={'Age':train_age_mean}, inplace=True) train['Age'] = train['Age'].astype(int) # 特徴量の削除 train.drop('PassengerId', axis=1, inplace=True) train.drop('Name', axis=1, inplace=True) train.drop('Ticket', axis=1, inplace=True) train.drop('Cabin', axis=1, inplace=True) train.drop('Embarked', axis=1, inplace=True) # 特徴量の値の変化 train.replace({'male':0, 'female':0}, inplace=True) # 特徴量エンジニアリング train['familysize'] = train['SibSp'] + train['Parch'] + 1 train.drop('SibSp', axis=1, inplace=True) train.drop('Parch', axis=1, inplace=True) #train['Fare'] = train['Fare'].astype(int) train.drop(train.columns[np.isnan(train).any()], axis=1, inplace=True) # 欠損値の補完 test_age_mean = test['Age'].mean() test.fillna(value={'Age':test_age_mean}, inplace=True) test['Age'] = test['Age'].astype(int) # 特徴量の削除 test.drop('PassengerId', axis=1, inplace=True) test.drop('Name', axis=1, inplace=True) test.drop('Ticket', axis=1, inplace=True) test.drop('Cabin', axis=1, inplace=True) test.drop('Embarked', axis=1, inplace=True) # 特徴量の値の変化 test.replace({'male':0, 'female':0}, inplace=True) # 特徴量エンジニアリング test['familysize'] = test['SibSp'] + test['Parch'] + 1 test.drop('SibSp', axis=1, inplace=True) test.drop('Parch', axis=1, inplace=True) #train['Fare'] = train['Fare'].astype(int) test.drop(test.columns[np.isnan(test).any()], axis=1, inplace=True) train # 説明変数と目的変数の定義 train = train[train.columns[::-1]] x_train = train.loc[:, :'Pclass'] y_train = train.loc[:, 'Survived'] x_test = test x_test # モデルの作成 lr = LogisticRegression() lr.fit(x_train, y_train) lr.predict(x_test)

試したこと

色々調べた

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2019/10/06 14:12

ソースコードとエラーコードを質問に追記してください。
meg_

2019/10/06 15:27

コード中のLogisticRegressionは「sklearn.linear_model.LogisticRegression」のことですか? 別のものですか?
rikubon_

2019/10/06 15:44

そうです。データの読み込みとモジュールのインポートは省かせていただきました
meg_

2019/10/06 15:50

エラーメッセージによると、featureの数が想定と違うとのことなので、x_trainとx_testの中身(列数?)を確認して修正すれば良さそうですが。 ※対策済みであれば、「試したこと」に追記ください。
rikubon_

2019/10/06 17:03

列数を確認してみた結果なぜかテスト用に一つ特徴量が少なかったです。しかし前処理では同じことを書いているのに学習用とテスト用では特徴量が違うのでしょうか
nandymak

2019/10/06 23:33

データが提示されていないので何故かはわかりませんが、処理が全く同じであれば最初から1列不足していたのでは?
guest

回答1

0

ベストアンサー

気づいたところだけですが。

python

1np.isnan(train).any()

anyはaxisを指定しないと「配列全体のany」を取ってスカラーで返すので、どこか1箇所でもnanがあればTrue(数値としては1)が返って1のがなくなります。

というか、nanの有無に依存するようなdropはかけないほうが良いでしょう(学習データと訓練データでnanの含み方が同じ保証はないので……)。

あとはx_trainとx_testのデータフレームのcolumnsを貼って見せてくれると良いかもしれません。

投稿2019/10/07 05:30

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問