PandasのNaNの正体

PandasのNaNの正体を教えてください。まずは下記をご覧ください。

Python
1>>> x1=pd.DataFrame({
2    "id":[1,2,3,4,5,6,7,8,9,10],
3    "name":["1_name","2_name","3_name","4_name","5_name","6_name","7_name","8_name","9_name","10_name"]
4})
5
6>>> x2=pd.DataFrame({
7    "id":[1,2,3,4,5,6,7],
8    "department":["1_department","2_department","3_department","4_department","5_department","6_department","7_department"]
9})
10
11>>> x = pd.merge(x1, x2, how="left" ,left_on=["id"],right_on=["id"])

で、データフレームxを作成します。

Python
1>>> x

id	name	department
1	1_name	1_department
2	2_name	2_department
3	3_name	3_department
4	4_name	4_department
5	5_name	5_department
6	6_name	6_department
7	7_name	7_department
8	8_name	NaN
9	9_name	NaN
10	10_name	NaN

このデータフレームのNaNの箇所について下記の様になります

Python
1# PythonのNone
2>>> x["department"][8]==None#False
3
4# mathのnan
5>>> math.isnan(x["department"][8])# True
6>>> x["department"][8]==math.nan# False
7
8# Numpyのnan
9>>> x["department"][8]==np.nan# False
10>>> np.isnan(x["department"][8])# True

math.isnan()とmath.nanの時で真偽が異なるのも意味不明です。PandasのNaNはいったい何を表すのでしょうか？

具体的に困っている点
データフレームの特定の箇所を欠損させる処理を行った後、任意の条件に従ってデータを取捨選択してきますが、NoneとPandasのNaNは異なる値と判定されるので困っています。

行動規範の内容に同意します

回答2件

型を見ればわかりますが、pandasのnan（を取り出した段階のもの）にしろ、math.nanにしろ、floatのnanです。

python
1>>> type(x["department"][8])
2<class 'float'>
3>>> type(math.nan)
4<class 'float'>

ただし、そもそもnanは自分自身との比較でFalseを返します。

python
1>>> math.nan == math.nan
2False

必ずisnan系の関数かメソッドで比較するようにすればいいでしょう。

投稿2019/05/10 02:26

hayataka2049

総合スコア30933

yamato_user

2019/05/10 02:27

ﾃﾞｰﾀﾌﾚｰﾑの特定の箇所にNaNを代入したいのですが、どうすればいいですか？ > x["department"][7]=None だとNoneが入りますよね？Noneでなく、NaNを代入したいです。

hayataka2049

2019/05/10 02:29 編集

math.nanかnp.nanを代入すればいいのでは。それかfloat("nan")でもいけます（NaNは IEEE 754 浮動小数点規格で表されていますので、準拠あるいは影響を受けた浮動小数点型であれば表現できます）

yamato_user

2019/05/10 02:31

出来ました(*^▽^*) ありがとうございます(´;ω;｀)

行動規範の内容に同意します

NaN(=numpy.nan=math.nan)は非数を表しNoneとは異なります。
また、NaNの重要な性質としてNaNのお話に記載のあるとおり

NaNとの四則演算は常にNaN
NaNとの!=以外の比較演算は常にfalse、!=は常にtrue

となります。したがって提示の比較演算はFalseとなります。
これではある値がNaNか判定できないので、それ専用の関数numpy.isnan()が存在します。

他、参考：python】0,None,numpy.nanの比較

投稿2019/05/10 02:41

can110

総合スコア38262

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

PandasのNaNの正体

関連した質問