[python]sklearnのSimpleImputerを実行した結果、カラム数が変わってしまった

かなり曖昧な質問になってしまい、恐縮ですが、もし知見のある方がいらっしゃいましたらご教示ください。
Nanを含む列を持つX_train（3000,1421)に対して、SimpleImputerで欠損値補完を実施しようとしておりました。
その後、その結果を再度DataFrame型に格納する処理を行いたいです。
そこで以下のように処理を実行しました。

python
1from sklearn.impute import SimpleImputer
2imp = SimpleImputer()
3imp.fit(X_train)
4X_train = pd.DataFrame(imp.transform(X_train), columns=X_train.columns.values)

すると、以下のエラーが出力されました。

python
1ValueError: Wrong number of items passed 1408, placement implies 1421

そのため、処理を分解して追っていったところ、

python
1from sklearn.impute import SimpleImputer
2imp = SimpleImputer()
3imp.fit(X_train)
4imp.transform(X_train).shape★

★の部分で次元を見たところ、3000,1408となっていました。
なので、エラーの原因としては、SimpleImputerで欠損値補完を行ったあとのnparrayのカラム数が1408である一方、DataFrame型に格納する際のindexとして指定しているカラム数は1421なので、不一致としてエラーとなっているものと考えています。

そこで以下についてご教示いただきたいです。
「imp.transform(X_train)を行った時に、カラム数が減少する（削除される）のはどういう場合か」

これがわかれば、原因となったカラムを削除した状態でDataFrameに格納（1408列として）できると考えています。

お手数おかけしますがよろしくお願いします

行動規範の内容に同意します

回答2件

リファレンスには

Notes

Columns which only contained missing values at fit are discarded upon transform if strategy is not “constant”.
sklearn.impute.SimpleImputer — scikit-learn 0.22.1 documentation

という記述があり、何が起きたのかを物語ってくれています。

X_train.isnull().all(axis=0)のようにすれば全列NaNの列はわかるのでそれを使って対処すればいいのかもしれませんが、X_testにも同様の変換を施さないといけないので何かと厄介でしょう。

投稿2020/01/18 16:12

hayataka2049

総合スコア30933

ベストアンサー

これが真の原因かどうかは分かりませんが、全ての値がNaNの列は無くなるようです。

Python
1import pandas as pd
2import numpy as np
3from sklearn.impute import SimpleImputer
4
5imp = SimpleImputer(verbose=1)
6X_train = pd.DataFrame([[np.nan, 2, 3], [np.nan, np.nan, np.nan], [np.nan, 5, 9]])
7print(X_train)
8#    0    1    2
9#0 NaN  2.0  3.0
10#1 NaN  NaN  NaN
11#2 NaN  5.0  9.0
12imp.fit(X_train)
13print(imp.transform(X_train))
14#[[2.  3. ]
15# [3.5 6. ]
16# [5.  9. ]]

SimpleImputer と同じ処理を行う方法として pandasの `DataFrame.fillna()`` がありますが、こちらを使うと問題が解決しそうですが、これでは駄目なのでしょうか。

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html

Python
1print(X_train.fillna(X_train.mean()))
2#    0    1    2
3#0 NaN  2.0  3.0
4#1 NaN  3.5  6.0
5#2 NaN  5.0  9.0

投稿2020/01/18 16:05

magichan

総合スコア15898

hayataka2049

2020/01/18 16:18

変数名からして機械学習の学習データとテストデータなので、おそらく同じようなX_testがあり、こちらもX_trainを埋めるのに使った値で埋める必要があります。SimpleImputerでは何もしなくてもそうなりますが、pandasでいけるでしょうか。（この辺りの前処理はscikit-learnもpandasも一長一短という印象です。）

magichan

2020/01/19 00:31

１行で書いてはいますが、埋める値を求める処理（X_train.mean()）と埋める処理（X_train.fillna()）の２つは別の処理ですのでpandasでも fill_value = X_train().mean() #又は pd.concat([X_train,X_test]).mean() X_train = X_train.fillna(fill_value) X_test = X_test.fillna(fill_value) のような対応可能です。（何もしなくてもというのはよくわかりませんが）

hayataka2049

2020/01/19 05:05

なるほど、理解しました。mappingを引数に取れれば問題なさそうです。 > 何もしなくてもというのはよくわかりませんが fitメソッドの実行時に平均値の情報が内部に保持され、transformメソッドではそれが使われます。なので、自然な使い方をすればこの辺りでは問題が起きない・手間もかからないということを指しています。

行動規範の内容に同意します

あなたの回答