[Pandas]nanの値の処理について

#概要
pythonとpandasでKaggleのTitanic問題を次のようなアプローチで解いているのですが、Pandasのnanの処理に詰まっています。

#方針
・テストデータを1行ずつ読み込む
・各データについて、クラス・性別・年齢層が同じものをtrainデータから抜き取る
・抜き出したtrainのデータに含まれるSurvivedの項目の割合を調べ、生存確率を出す。

#コード

python
1    import pandas as pd
2    import numpy as np
3    test = pd.read_csv("data/test.csv")
4    train = pd.read_csv("data/train.csv")
5    for index, row in test.iterrows():
6        qs='Pclass=="{0}" and Sex=="{1}" and {2}-10 < Age and Age < {2}+10'
7        target=train.query(qs.format(row['Pclass'],row['Sex'],row['Age']))
8        print(target.mean()['Survived'])
9        #以下略

#問題点
例えば、row['age']がnanの時、

python
1 target=train.query('Pclass=="1" and Sex=="male" and nan-10 < Age and Age < nan+10')

で、name 'nan' is not definedのエラーが出てしまいます。

「nanがあった場合のみ、そこの条件を飛ばす」という処理はどのように書けるでしょうか？

python
1 target=train.query('Pclass=="1" and Sex=="male")

t_obara

2019/04/04 01:04

ループする前にdropnaを利用する方法もあるかと思いますが、nanについては単に読み飛ばせば良いのか十分検討した方が良い場合もあります。

行動規範の内容に同意します

回答2件

ベストアンサー

「nanがあった場合のみ、そこの条件を飛ばす」という処理はどのように書けるでしょうか？

target=train.query('Pclass=="1" and Sex=="male")

こういうことでしょうか

Python
1for index, row in test.iterrows():
2        qs='Pclass=="{0}" and Sex=="{1}"'.format(row['Pclass'],row['Sex'])
3        # Ageの条件式
4        if not np.isnan(row['Age']):
5            qs += ' and {0}-10 < Age and Age < {0}+10'.format(row['Age'])
6        target=train.query(qs)

投稿2019/04/04 07:04

8524ba23

総合スコア38352

moscow3

2019/04/04 07:33

そんな感じです！（単純に文字列をあとから足すという考えが思いつきませんでした）

行動規範の内容に同意します

Python
1for index, row in test.iterrows():

の箇所を

Python
1for index, row in test[test['Age'].notna()].iterrows():

とでもすると良いのではないでしょうか

投稿2019/04/03 23:25

magichan

総合スコア15898

moscow3

2019/04/04 06:33

そうすると、Ageの項目がないrowが完全無視されてしまいます。（やりたいのは、完全無視ではなく、「Ageについての条件のみ無視」です）質問がわかりにくくて申し訳ありません

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

[Pandas]nanの値の処理について

関連した質問