python：数値以外の行を削除すると、整数が勝手に小数点表示されます...

以下のように、数値以外のデータが含まれる行をDropさせると、整数がなぜか小数点第一位表示されます。
元の整数表示にするにはどうすればよいでしょうか？

# データを表示する
df1_X = pd.read_excel('【Test_欠損あり.xlsx',sheet_name='base-index')
df1_X.head()

	id	col1	col2	col3	col4	
0	45	0	NaN	0	1	
1	129	0	1	0	0	
2	77	0	0	aaa	1	
3	40	0	1	1	1	
4	47	0	NaN	0	ssss

以下、数値行以外を削除すると、上記の整数が小数点第一位まで表示されてしまいます。。

#　欠損行の削除

#　2列目(2columns）から1列ずつ、最後の列まで、すべての文字→NaNに変換する（1列目はインデックスなのでそのままにする）
for i in df1_X.columns[1:]:
    df1_X[i] = pd.to_numeric(df1_X[i], errors='coerce')

#　上記の「pd.to_numeric」で、文字→NaN　に変換しているので、それを含む行を一括削除
df1_X=df1_X.dropna()
df1_X.head()


	id	col1	col2	col3	col4	
1	129	0.0	1.0	0.0	0.0
3	40	0.0	1.0	1.0	1.0
5	65	0.0	1.0	0.0	0.0
6	101	0.0	0.0	0.0	0.0
8	23	0.0	0.0	0.0	1.0

tiitoi

2020/06/30 06:12

dropNA() する以前に to_numeric () した段階で各列の型は float になっていませんか？ df1_X.dtypes で確認してみてください

python_2019

2020/06/30 06:46

ご回答ありがとうございます。 dropNA() する以前に to_numeric () した段階で各列の型は、全てint32となっておりました。この型を変更すればよいのでしょうか？

python_2019

2020/06/30 06:47

すみません。間違っていました。 float64になっていました。

行動規範の内容に同意します

回答1件

ベストアンサー

pandas では、データに int と NaN (float) が混じっている場合はより広い型のほうに変換されます。(
ある範囲であれば、整数は float で正確に表せるので)
なので、to_numeric() で数値に変換した段階で型は float になっています。

NaN を消して、整数型にしたい場合、

pandas.DataFrame.dropna() で NaN を含む行を削除
pandas.DataFrame.convert_dtypes() で最適な型に変換

python
1import pandas as pd
2
3
4df = pd.DataFrame({"A": [1, None, 2]})
5print(df)
6
7# NaN がある行を削除
8df.dropna(inplace=True)
9
10# 最適な型を推論
11df = df.convert_dtypes()
12print(df)