エラーを解決したい。行数をどうすればいいかわかりません

前提・実現したいこと

kaggle home credit urlに挑戦しています.
。簡単に最低限必要な前処理だけしてサブミットしようとしていますがエラーが解決できません。
普段はnotebookでやっていますが最後の行のtrain_test_splitを実行した際にエラーが出ます。行数があっていないようなエラーですがどうすればいいでしょうか

発生している問題・エラーメッセージ

Found input variables with inconsistent numbers of samples: [307509, 307511]

該当のソースコード

python
1train=pd.read_csv('../input/application_train.csv')
2test=pd.read_csv('../input/application_test.csv')
3
4from sklearn.preprocessing import LabelEncoder
5le = LabelEncoder()
6le_count = 0
7
8# Iterate through the columns
9for col in train:
10    if train[col].dtype == 'object':
11        # If 2 or fewer unique categories
12        if len(list(train[col].unique())) <= 2:
13            # Train on the training data
14            le.fit(train[col])
15            # Transform both training and testing data
16            train[col] = le.transform(train[col])
17            test[col] = le.transform(test[col])
18           
19train.fillna(method="ffill")
20test.fillna(method="ffill")
21
22train = pd.get_dummies(train)
23test = pd.get_dummies(test)
24
25train_X=train.drop(train['TARGET'])
26y=train['TARGET']
27
28train_X=train_X.drop(['TARGET'],axis=1)
29
30import lightgbm as lgb
31
32from sklearn.model_selection import train_test_split
33from sklearn.metrics import accuracy_score
34
35train_x,valid_x,train_y,valid_y=train_test_split(train_X,y,test_size=0.33,random_state=0)
36

行動規範の内容に同意します

回答1件

ベストアンサー

結論

今回のご質問にお答えするのに必要最低限の変更を施したコードは以下の通りです。

python
1train=pd.read_csv('../input/application_train.csv')
2test=pd.read_csv('../input/application_test.csv')
3
4from sklearn.preprocessing import LabelEncoder
5le = LabelEncoder()
6le_count = 0
7
8# Iterate through the columns
9for col in train:
10    if train[col].dtype == 'object':
11        # If 2 or fewer unique categories
12        if len(list(train[col].unique())) <= 2:
13            # Train on the training data
14            le.fit(train[col])
15            # Transform both training and testing data
16            train[col] = le.transform(train[col])
17            test[col] = le.transform(test[col])
18
19train.fillna(method="ffill")
20test.fillna(method="ffill")
21
22train = pd.get_dummies(train)
23test = pd.get_dummies(test)
24
25y=train['TARGET']
26
27train_X=train.drop(['TARGET'],axis=1)
28
29import lightgbm as lgb
30
31from sklearn.model_selection import train_test_split
32from sklearn.metrics import accuracy_score
33
34train_x,valid_x,train_y,valid_y=train_test_split(train_X,y,test_size=0.33,random_state=0)

なお、変更点は以下の通りです。

diff
1train=pd.read_csv('../input/application_train.csv')
2test=pd.read_csv('../input/application_test.csv')
3
4from sklearn.preprocessing import LabelEncoder
5le = LabelEncoder()
6le_count = 0
7
8# Iterate through the columns
9for col in train:
10    if train[col].dtype == 'object':
11        # If 2 or fewer unique categories
12        if len(list(train[col].unique())) <= 2:
13            # Train on the training data
14            le.fit(train[col])
15            # Transform both training and testing data
16            train[col] = le.transform(train[col])
17            test[col] = le.transform(test[col])
18
19train.fillna(method="ffill")
20test.fillna(method="ffill")
21
22train = pd.get_dummies(train)
23test = pd.get_dummies(test)
24
25- train_X=train.drop(train['TARGET'])
26y=train['TARGET']
27
28- train_X=train_X.drop(['TARGET'],axis=1)
29+ train_X=train.drop(['TARGET'],axis=1)
30
31import lightgbm as lgb
32
33from sklearn.model_selection import train_test_split
34from sklearn.metrics import accuracy_score
35
36train_x,valid_x,train_y,valid_y=train_test_split(train_X,y,test_size=0.33,random_state=0)

解説

python
1train_X=train.drop(train['TARGET'])
2y=train['TARGET']
3
4train_X=train_X.drop(['TARGET'],axis=1)

の部分の処理で実現したいことは、

DataFrame train から予測に使う特徴量だけを抽出して train_X を作りたい。具体的には、 train から TARGET というカラムを除外した DataFrame を作りたい。
DataFrame train から予測の目的変数だけを抽出して y を作りたい。具体的には、 train から TARGET というカラムだけを取り出したい。

ということだと思います。

まず、以下の部分については、上記のように DataFrame を作るためには不要な処理です。

python
1train_X=train.drop(train['TARGET'])

さらに、以下の部分については、 train からデータを作ればよいので、加工元の DataFrame は train_X ではなく train を使うべきでしょう。

diff
1- train_X=train_X.drop(['TARGET'],axis=1)
2+ train_X=train.drop(['TARGET'],axis=1)

以上を踏まえますと、回答の最初に書いた通りの変更になり、手元では実行することができました。

補足

今回のバグとは関係ありませんので蛇足かもしれませんが、以下の部分については改善の余地があります。

python
1train.fillna(method="ffill")
2test.fillna(method="ffill")

pandas の関数 fillna は、デフォルトでは inplace=False となっており、呼び出しただけでは呼び出し元の DataFrame には変更が加えられません。
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html

なので、欠損値を method='ffill' で埋めたい場合は、

python
1train = train.fillna(method="ffill")
2test = test.fillna(method="ffill")

とするか、

python
1train.fillna(method="ffill", inplace=True)
2test.fillna(method="ffill", inplace=True)

とするのが良いと思われます。

投稿2019/06/27 07:40

r_takahama

総合スコア106

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！