imputerによる欠測値の補完

python
1
2import pandas as pd 
3from io import StringIO
4#サンプルデータを作成
5csv_data='''A,B,C,D
6            1.0,2.0,3.0,4.0
7            5.0,6.0,,8.0,
8            10.0,11.0,12.0,'''
9
10#python2.7を使用している場合は文字列をunicodeに変換する必要がある
11#csv_data=unicode(csv_data)
12#サンプルデータを読み込む
13
14df=pd.read_csv(StringIO(csv_data))
15df
16
17
18from sklearn.preprocessing import Imputer
19#欠損値補完のインスタンスを生成
20imr=Imputer(missing_values='NaN',strategy='mean',axis=0)
21#データを適合
22imr=imr.fit(df.values)
23#補完を実行
24imputed_data=imr.fit_transform(df.values)
25imputed_data

発生している問題・エラーメッセージ

ValueError
1<ipython-input-12-242ef3d56b97> in <module>()
2      3 imr=Imputer(missing_values='NaN',strategy='mean',axis=0)
3      4 #データを適合
4----> 5 imr=imr.fit(df.values)
5      6 #補完を実行
6      7 imputed_data=imr.fit_transform(df.values)
7
8~/.pyenv/versions/anaconda3-5.3.1/lib/python3.7/site-packages/sklearn/preprocessing/imputation.py in fit(self, X, y)
9    153         if self.axis == 0:
10    154             X = check_array(X, accept_sparse='csc', dtype=np.float64,
11--> 155                             force_all_finite=False)
12    156 
13    157             if sparse.issparse(X):
14
15~/.pyenv/versions/anaconda3-5.3.1/lib/python3.7/site-packages/sklearn/utils/validation.py in check_array(array, accept_sparse, dtype, order, copy, force_all_finite, ensure_2d, allow_nd, ensure_min_samples, ensure_min_features, warn_on_dtype, estimator)
16    431                                       force_all_finite)
17    432     else:
18--> 433         array = np.array(array, dtype=dtype, order=order, copy=copy)
19    434 
20    435         if ensure_2d:
21
22ValueError: could not convert string to float: 'D'
23エラーメッセージ

ここに質問の内容を詳しく書いてください。
とある本の写経をしているのですがこのようにvalueerrorになってしまいます。初心者であり対策が全くわかリません。お助けください!お願いします.

hayataka2049

2020/03/25 08:28

とある本とぼかさずに出典を特定できる情報をご提示ください。また、このコードだけでは情報量が足りません。このセルを実行するために必要な全コードとデータ、dfを表示した結果を追記してください。

tomatoto11

2020/03/26 02:40

変更いたしました!本の方は達人データサイエンティストによる理論と実践　python機械学習プログラミングp106-p108になります！こちらは元のコードになります！サンプルデータの読み込みのところでParsererrorになってしまったため自分でnamesを入れて改善したのですが、その後のところで引っかかってしまいます!元のコードをどう修正すればいいのか、教えてください!お願いします!