回答編集履歴

修正

2020/04/09 13:31

投稿

スコア21962

answer CHANGED Viewed

@@ -36,7 +36,7 @@
 ### 原因
-敬称を抽出するときに敬称の前に空白が入ってしまっているため、isin() でマッチしなくなっているのが原因です。
+敬称を抽出するときに敬称の前に空白が入ってしまっているため、isin() でマッチしなくなっているのが原因です。以下のように修正するといいと思います。
 ```diff
 - lambda x: x.split(",")[1].split(".")[0]

修正

2020/04/09 13:31

投稿

スコア21962

answer CHANGED Viewed

@@ -30,4 +30,53 @@
 print(train["honorific"].value_counts())
 print(train2["honorific"].value_counts())
+```
+## 追記
+### 原因
+敬称を抽出するときに敬称の前に空白が入ってしまっているため、isin() でマッチしなくなっているのが原因です。
+```diff
+- lambda x: x.split(",")[1].split(".")[0]
++ lambda x: x.split(", ")[1].split(". ")[0]
+```
+質問のコードだと
+`Graham, Miss. Margaret Edith`
+↓ "," で分割し、後ろを抽出 (x.split(",")[1])
+` Miss. Margaret Edith`
+↓ "." で分割し、前を抽出 (x.split(",")[1].split(".")[0])
+` Miss`
+### 修正後のコード全体
+```
+import pandas as pd
+# train.csvはタイタニック提供のデータをそのまま利用しています。
+titanic_train = pd.read_csv("train.csv")
+only_train_honorific = [
+    "Capt",
+    "Don",
+    "Jonkheer",
+    "Lady",
+    "Major",
+    "Mlle",
+    "Mme",
+    "Sir",
+    "the Countess",
+]
+titanic_train["honorific"] = titanic_train["Name"].map(
+    lambda x: x.split(", ")[1].split(". ")[0]
+)
+train_omit1 = titanic_train[
+    ~titanic_train["honorific"].isin(only_train_honorific)
+].reset_index(drop=True)
+print(titanic_train["honorific"].value_counts())
+print(train_omit1["honorific"].value_counts())
 ```

修正

2020/04/09 13:26

投稿

スコア21962

answer CHANGED Viewed

@@ -1,1 +1,33 @@
-`~titanic_train["honorific"].isin(only_train_honorific)` でブール配列の否定をとっているので、only_train_honorific が含まれない行の抽出になっていないでしょうか。
+`~titanic_train["honorific"].isin(only_train_honorific)` でブール配列の否定をとっているので、only_train_honorific が含まれない行の抽出になっていないでしょうか。
+## 追記
+Kaggle の titanic データセットだと思いますが、表題の現象は再現しません。
+指定した敬称を含む行は質問のコードで意図通り除かれていると思います。
+```python
+import pandas as pd
+train = pd.read_csv(
+    "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
+)
+exclude_cols = [
+    "Capt",
+    "Don",
+    "Jonkheer",
+    "Lady",
+    "Major",
+    "Mlle",
+    "Mme",
+    "Sir",
+    "the Countess",
+]
+train["honorific"] = train["Name"].map(lambda x: x.split(", ")[1].split(". ")[0])
+train2 = train[~train["honorific"].isin(exclude_cols)].reset_index(drop=True)
+print(train["honorific"].value_counts())
+print(train2["honorific"].value_counts())
+```