pandas isinで指定項目のみの抽出方法に関して

前提・実現したいこと

MacでVSCode(Python3)を利用しています。
isinを利用して、指定(下記only_train_honorific)項目以外を抽出したいのですが、全ての項目が入ったデータで抽出されてしまいます。(発生している問題・エラーメッセージの「honorific」項目参照)
上記、、原因がお分かりの方が入れば、ご教示いただけますと幸いです。

発生している問題・エラーメッセージ

Python
1#print結果
2     PassengerId  Survived  Pclass  ... Cabin Embarked  honorific
30              1         0       3  ...   NaN        S         Mr
41              2         1       1  ...   C85        C        Mrs
52              3         1       3  ...   NaN        S       Miss
63              4         1       1  ...  C123        S        Mrs
74              5         0       3  ...   NaN        S         Mr
8..           ...       ...     ...  ...   ...      ...        ...
9886          887         0       2  ...   NaN        S        Rev
10887          888         1       1  ...   B42        S       Miss
11888          889         0       3  ...   NaN        S       Miss
12889          890         1       1  ...  C148        C         Mr

Python
1#titanic_train[honorific]に含まれる全項目                  
2 Capt         
3 Col          
4 Don         
5 Dr           
6 Jonkheer    
7 Lady         
8 Major        
9 Master      
10 Miss        
11 Mlle          
12 Mme      
13 Mr         
14 Mrs       
15 Ms         
16 Rev         
17 Sir         
18 the Countess

該当のソースコード

Python3
1import pandas as pd
2import numpy as np
3
4only_train_honorific=["Capt","Don","Jonkheer","Lady","Major","Mlle","Mme","Sir","the Countess"]
5train_omit1=titanic_train[~titanic_train["honorific"].isin(only_train_honorific)].reset_index(drop=True)
6print(train_omit1)

追記

Python3
1import pandas as pd
2
3#train.csvはタイタニック提供のデータをそのまま利用しています。
4titanic_train=pd.read_csv("train.csv")
5
6only_train_honorific=["Capt","Don","Jonkheer","Lady","Major","Mlle","Mme","Sir","the Countess",]
7titanic_train["honorific"]=titanic_train["Name"].map(lambda x: x.split(",")[1].split(".")[0])
8train_omit1=titanic_train[~titanic_train["honorific"].isin(only_train_honorific)].reset_index(drop=True)
9print(titanic_train["honorific"].value_counts())
10print(train_omit1["honorific"].value_counts())

Python3
1#print結果
2 Mr              517
3 Miss            182
4 Mrs             125
5 Master           40
6 Dr                7
7 Rev               6
8 Col               2
9 Mlle              2
10 Major             2
11 Jonkheer          1
12 Ms                1
13 Don               1
14 Sir               1
15 Lady              1
16 Capt              1
17 the Countess      1
18 Mme               1
19Name: honorific, dtype: int64
20 Mr              517
21 Miss            182
22 Mrs             125
23 Master           40
24 Dr                7
25 Rev               6
26 Col               2
27 Mlle              2
28 Major             2
29 Jonkheer          1
30 Ms                1
31 Don               1
32 Sir               1
33 Lady              1
34 Capt              1
35 the Countess      1
36 Mme               1
37Name: honorific, dtype: int64

行動規範の内容に同意します

回答1件

ベストアンサー

~titanic_train["honorific"].isin(only_train_honorific) でブール配列の否定をとっているので、only_train_honorific が含まれない行の抽出になっていないでしょうか。

追記

Kaggle の titanic データセットだと思いますが、表題の現象は再現しません。
指定した敬称を含む行は質問のコードで意図通り除かれていると思います。

python
1import pandas as pd
2
3train = pd.read_csv(
4    "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
5)
6
7exclude_cols = [
8    "Capt",
9    "Don",
10    "Jonkheer",
11    "Lady",
12    "Major",
13    "Mlle",
14    "Mme",
15    "Sir",
16    "the Countess",
17]
18train["honorific"] = train["Name"].map(lambda x: x.split(", ")[1].split(". ")[0])
19
20
21train2 = train[~train["honorific"].isin(exclude_cols)].reset_index(drop=True)
22
23print(train["honorific"].value_counts())
24print(train2["honorific"].value_counts())

追記

原因

敬称を抽出するときに敬称の前に空白が入ってしまっているため、isin() でマッチしなくなっているのが原因です。以下のように修正するといいと思います。

diff
1- lambda x: x.split(",")[1].split(".")[0]
2+ lambda x: x.split(", ")[1].split(". ")[0]

質問のコードだと

Graham, Miss. Margaret Edith
↓ "," で分割し、後ろを抽出 (x.split(",")[1])
Miss. Margaret Edith
↓ "." で分割し、前を抽出 (x.split(",")[1].split(".")[0])
Miss

修正後のコード全体

import pandas as pd

# train.csvはタイタニック提供のデータをそのまま利用しています。
titanic_train = pd.read_csv("train.csv")

only_train_honorific = [
    "Capt",
    "Don",
    "Jonkheer",
    "Lady",
    "Major",
    "Mlle",
    "Mme",
    "Sir",
    "the Countess",
]
titanic_train["honorific"] = titanic_train["Name"].map(
    lambda x: x.split(", ")[1].split(". ")[0]
)
train_omit1 = titanic_train[
    ~titanic_train["honorific"].isin(only_train_honorific)
].reset_index(drop=True)

print(titanic_train["honorific"].value_counts())
print(train_omit1["honorific"].value_counts())

投稿2020/04/05 06:07

編集2020/04/09 13:31

tiitoi

総合スコア21956

yukicb

2020/04/06 12:56 編集

失礼いたしました。下記記載に誤りがございました、、誤）指定(下記only_train_honorific)項目のみを抽出正）指定(下記only_train_honorific)項目以外を抽出上記処理を行っても「train_omit1」には「only_train_honorific」も含まれた状態となってしまいます。何が原因となっているのでしょうか、？

tiitoi

2020/04/06 15:13

追記のように現象が再現しません。もし解決しない場合はコピペすれば動作するコード全体を記載してください。

yukicb

2020/04/09 12:29

ご連絡が遅れまして申し訳ございません、、丁寧なご返信ありがとうございます！いただいたコードの場合、上手く処理ができました！ただ、こちらも踏まえて、一部修正を行い実施をしたのですが、上手くいきませんでした、、 (上記、追記部分をコピペでご確認いただけますと幸いです) ※train.csvデータは大変お手数ですが、下記より同名のコードをダウンロードいただけますと幸いです。https://www.kaggle.com/c/titanic/data お忙しい中お手数ですが、何卒宜しくお願い致します????‍♂️

tiitoi

2020/04/09 13:28

追記しました。敬称を抽出した際に " Ms" のように空白が入ってしまい、マッチしなくなっているのが原因です。

yukicb

2020/04/11 13:40

なるほど、、、ありがとうございます！！こちらで上手くいきました！！丁寧に最後までご対応いただきありがとうございました！！????‍♂️

行動規範の内容に同意します