【pandas】想定外のデータの検索方法

データフレームの内の想定外のデータの検索方法のアイディアをお教えいただけますと幸いです。

例えば、本来数値型で構成されているであろうカラムに文字列型のデータが少数存在していた場合、
どのようにしてそのデータを抽出できますでしょうか。

df.dtypesから各カラムのデータ型を調べ、int型ではなくobject型になっており、
元データを直接確認し、不自然なデータを見つけました。

コードで該当する行やデータを確認したいと考えております。
恐れ入りますがご教授いただきたく存じます。どうぞよろしくお願い致します。

行動規範の内容に同意します

回答2件

ベストアンサー

元のCSVは1行目がヘッダー列となっていると仮定します。
下記は、変更するデータ形式がすべて数値ということが前提です。

import pandas as pd

df_org = pd.read_csv('data1.csv', header=0)

# 読み込んだcsvのうち、欠損値データをわざと文字列に置換しておく。仮に欠損値を「おかしな値」に含めないなれば、この行はdf_src=df_org とするだけでよい。
df_src = df_org.fillna('__NA__')

# データを数値に変換する。
cols = df_src.columns
df_dest = df_src[cols].apply(pd.to_numeric, errors='coerce')

# 「おかしな値」だったデータ位置はTrue, 正常に数値として取り込まれたデータ位置はFalseとしたデータフレームを作る。
df_chk = df_dest.isna()
print(df_chk)
# 元のデータフレームに適用した結果を表示。
print(df_src[df_chk])

以上により
正常に取り込まれなかったセル（すなわち「おかしな値」）は
df_src[df_chk]
から、NaNでないデータとして参照できます。
ただし__NA__は、元CSVでデータがなかったセルを示します。

投稿2020/11/23 07:44

編集2020/11/23 09:18

sfdust

総合スコア1135

Lemonn

2020/11/23 09:03

ご回答いただきありがとうございます。今回のケースは欠損値ではなく、おかしな値が挿入されているケースを想定しております。しかし、ご提示いただいた下記の部分は応用できると思いました。ありがとうございます！ # データを数値に変換する。変換エラーが起きたデータはNaNになる。 cols = df_src.columns df_dest = df_src[cols].apply(pd.to_numeric, errors='coerce') # NaNのデータはTrue, 正常に数値として取り込まれたデータはFalseとしたデータフレームを作る。 df_chk = df_dest.isna() print(df_chk)