質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.47%
NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

1265閲覧

エラーを解決したい。行数をどうすればいいかわかりません

tmtmmm

総合スコア24

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2019/06/26 08:28

前提・実現したいこと

kaggle home credit urlに挑戦しています.
。簡単に最低限必要な前処理だけしてサブミットしようとしていますがエラーが解決できません。
普段はnotebookでやっていますが最後の行のtrain_test_splitを実行した際にエラーが出ます。行数があっていないようなエラーですがどうすればいいでしょうか

発生している問題・エラーメッセージ

Found input variables with inconsistent numbers of samples: [307509, 307511]

該当のソースコード

python

1train=pd.read_csv('../input/application_train.csv') 2test=pd.read_csv('../input/application_test.csv') 3 4from sklearn.preprocessing import LabelEncoder 5le = LabelEncoder() 6le_count = 0 7 8# Iterate through the columns 9for col in train: 10 if train[col].dtype == 'object': 11 # If 2 or fewer unique categories 12 if len(list(train[col].unique())) <= 2: 13 # Train on the training data 14 le.fit(train[col]) 15 # Transform both training and testing data 16 train[col] = le.transform(train[col]) 17 test[col] = le.transform(test[col]) 18 19train.fillna(method="ffill") 20test.fillna(method="ffill") 21 22train = pd.get_dummies(train) 23test = pd.get_dummies(test) 24 25train_X=train.drop(train['TARGET']) 26y=train['TARGET'] 27 28train_X=train_X.drop(['TARGET'],axis=1) 29 30import lightgbm as lgb 31 32from sklearn.model_selection import train_test_split 33from sklearn.metrics import accuracy_score 34 35train_x,valid_x,train_y,valid_y=train_test_split(train_X,y,test_size=0.33,random_state=0) 36

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

結論

今回のご質問にお答えするのに必要最低限の変更を施したコードは以下の通りです。

python

1train=pd.read_csv('../input/application_train.csv') 2test=pd.read_csv('../input/application_test.csv') 3 4from sklearn.preprocessing import LabelEncoder 5le = LabelEncoder() 6le_count = 0 7 8# Iterate through the columns 9for col in train: 10 if train[col].dtype == 'object': 11 # If 2 or fewer unique categories 12 if len(list(train[col].unique())) <= 2: 13 # Train on the training data 14 le.fit(train[col]) 15 # Transform both training and testing data 16 train[col] = le.transform(train[col]) 17 test[col] = le.transform(test[col]) 18 19train.fillna(method="ffill") 20test.fillna(method="ffill") 21 22train = pd.get_dummies(train) 23test = pd.get_dummies(test) 24 25y=train['TARGET'] 26 27train_X=train.drop(['TARGET'],axis=1) 28 29import lightgbm as lgb 30 31from sklearn.model_selection import train_test_split 32from sklearn.metrics import accuracy_score 33 34train_x,valid_x,train_y,valid_y=train_test_split(train_X,y,test_size=0.33,random_state=0)

なお、変更点は以下の通りです。

diff

1train=pd.read_csv('../input/application_train.csv') 2test=pd.read_csv('../input/application_test.csv') 3 4from sklearn.preprocessing import LabelEncoder 5le = LabelEncoder() 6le_count = 0 7 8# Iterate through the columns 9for col in train: 10 if train[col].dtype == 'object': 11 # If 2 or fewer unique categories 12 if len(list(train[col].unique())) <= 2: 13 # Train on the training data 14 le.fit(train[col]) 15 # Transform both training and testing data 16 train[col] = le.transform(train[col]) 17 test[col] = le.transform(test[col]) 18 19train.fillna(method="ffill") 20test.fillna(method="ffill") 21 22train = pd.get_dummies(train) 23test = pd.get_dummies(test) 24 25- train_X=train.drop(train['TARGET']) 26y=train['TARGET'] 27 28- train_X=train_X.drop(['TARGET'],axis=1) 29+ train_X=train.drop(['TARGET'],axis=1) 30 31import lightgbm as lgb 32 33from sklearn.model_selection import train_test_split 34from sklearn.metrics import accuracy_score 35 36train_x,valid_x,train_y,valid_y=train_test_split(train_X,y,test_size=0.33,random_state=0)

解説

python

1train_X=train.drop(train['TARGET']) 2y=train['TARGET'] 3 4train_X=train_X.drop(['TARGET'],axis=1)

の部分の処理で実現したいことは、

  • DataFrame train から予測に使う特徴量だけを抽出して train_X を作りたい。具体的には、 train から TARGET というカラムを除外した DataFrame を作りたい。
  • DataFrame train から予測の目的変数だけを抽出して y を作りたい。具体的には、 train から TARGET というカラムだけを取り出したい。

ということだと思います。

まず、以下の部分については、上記のように DataFrame を作るためには不要な処理です。

python

1train_X=train.drop(train['TARGET'])

さらに、以下の部分については、 train からデータを作ればよいので、加工元の DataFrame は train_X ではなく train を使うべきでしょう。

diff

1- train_X=train_X.drop(['TARGET'],axis=1) 2+ train_X=train.drop(['TARGET'],axis=1)

以上を踏まえますと、回答の最初に書いた通りの変更になり、手元では実行することができました。

補足

今回のバグとは関係ありませんので蛇足かもしれませんが、以下の部分については改善の余地があります。

python

1train.fillna(method="ffill") 2test.fillna(method="ffill")

pandas の関数 fillna は、デフォルトでは inplace=False となっており、呼び出しただけでは呼び出し元の DataFrame には変更が加えられません。
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html

なので、欠損値を method='ffill' で埋めたい場合は、

python

1train = train.fillna(method="ffill") 2test = test.fillna(method="ffill")

とするか、

python

1train.fillna(method="ffill", inplace=True) 2test.fillna(method="ffill", inplace=True)

とするのが良いと思われます。

投稿2019/06/27 07:40

r_takahama

総合スコア106

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問