欠損値の数がもとのデータと合わない

以下のコードにより、欠損値が０より大きいものを表示させました。

python
1null=pd.DataFrame(df.isnull().sum())
2null.columns=['nan']
3null[null['nan']>0].sort_values(by='nan',ascending=False)

そして、欠損値が１であったデータ列に対して何行目に欠損値があるのか、以下のコードで調べたところ、

python
1index=df[df['phones'].isnull()].index.values
2print(index)

[]
と返ってきました。

これは欠損値が存在していなかったと解釈してよいのでしょうか？
もし欠損値がないとするならば、なぜ１つ目のコードで欠損値の数が１と表示されたのでしょうか？

初歩的な内容で申し訳ありません。よろしくお願い致します。

行動規範の内容に同意します

回答1件

ベストアンサー

nanは文字列ではありません。

import numpy as np

を行ったあと、np.nanを使ってください。

python
1import numpy as np
2null=pd.DataFrame(df.isnull().sum())
3null.columns=[np.nan]
4null[null[np.nan]>0].sort_values(by=np.nan,ascending=False)

投稿2021/01/12 10:11

総合スコア24670

2021/01/12 10:23

ありがとうございます。いただいた回答に質問をしてしまい申し訳ないのですが、私が先ほど書いていたコードのまま、 df['phones'].describe() を実行したときにtopがnanで返ってきたのは、やはり null.columns=['nan'] としていたことが原因ですか？

2021/01/12 11:17

まず、コードを訂正して、正常に動作するかを確認してはいかがですか。それで分からないところがあれば、dfの内容の概要と、実際に行った手順を省略せずに教えてください。今ある情報だけでは最後に何を質問されたのかが良くわかりません。

2021/01/12 23:52

コードを訂正して正しく動きました。ありがとうございます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問