[Python]dataframeで、複数の条件の内、どれか該当するものがあれば抽出したい

Question

#データ説明
1列目にメールアドレス（`email`）、2列目にその送り主と思わしき複数の候補名（`names`）が入っているデータフレーム`df_email_with_names` があります。
1列目 `email` は、名前の一部を含み、同じgmailドメインではあるものの、アドレス自体には統一の規則はありません。
2列目 `names` はセミコロン（;）で各名前が区切られており、名前の前に不要なスペースが入っているケースもあります。また、名前の数もバラバラです。

|index|email|names|
|:--|:--|:--|
|0|takashi@gmail.com|Tanaka Takeshi; 　Horiguchi Minoru; Yamada Hanako|
|1|hima@gmail.com|Uchida Kiwamu; Hisaishi Makoto|
|2|yasuko-oyama@gmail.com|Oyama Yasuko|
|...|...|...|
|100|ksaki@gmail.com|Inoue Yuta; Yamasaki Toru;　Kawaguchi Saki|


#得たい結果
`df_email_with_names`の各行ごとに、`names`の名前の一部が`email`に含まれている送り主を抽出し、新たな列 `corresponding_name`に格納したいです。

#現状以下のようにコーディングしてみました（環境: google colaboratory)

```python
import pandas as pd
import numpy as np


# names列の不要なセミコロン除去
df_email_with_names['names'] = df_email_with_names['names'].str.split(";")
#df_email_with_names['names'] = df_email_with_names['names'].str.replace("　", "")　 ←うまく行かないので次のブロックで対応



# names列の不要なスペース除去
l_cleaned = []

for i in range(len(df_email_with_names['names'])):
  temp = df_email_with_names["names"][i]
  temp2 = [s.lstrip(" ").lower() for s in temp]  
  l_cleaned.append(temp2) 

# names列をきれいにしたものを元のデータフレームとマージ
s_cleaned = pd.Series(l_cleaned)
df_cleaned = pd.DataFrame({'cleaned_names': s_cleaned})
df_cleaned['index'] = df_cleaned.reset_index().index
df_merge_original_data = pd.merge(df_email_with_names, df_cleaned, on='index', how='outer')
df_merge_original_data




#cleaned_names列の一部が、emailに含まれるかどうかを判定
df_out = pd.DataFrame(index=range(0,len(df_merge_original_data)),columns=['index'])
df_out['index'] = df_out.reset_index().index


for l_checker in df_merge_original_data["cleaned_names"]:
    #print("=============================================")
    #print(l_checker)

    for checker in l_checker:
     #print("-----------")

      #print(checker)
      last_name = checker.split()[0]
      first_name = checker.split()[-1]
      # print("last name:" + last_name)      
      # print("first name:" + first_name)

      mail_picker_words = [
               first_name.lower(),
               last_name.lower(),
               (first_name[:2]+last_name[:2]).lower(),
               (last_name[:2]+first_name[:2]).lower()
               ]

      #print(mail_picker_words)
      
      df_target_filtered = df_merge_original_data[np.array([df_merge_original_data['email'].str.contains(part) for part in mail_picker_words]).any(axis=0)]　#←うまくいかない
      df_out = pd.merge(df_out, df_target_filtered, on='index', how='outer')

      #print(df_out)
```
もっときれいに書けるはずなのですが、技量不足でうまくいかず・・・。
ご指導のほど、どうぞよろしくお願いいたします。

Accepted Answer

以下のコードは一例として参考にしてみて下さい。現状では `yasuko-oyama@gmail.com` にマッチする名前がありません(姓名が逆になっているから)。
```python
import pandas as pd
import io
import re

csv_data = '''
email,names
takeshi@gmail.com,Tanaka Takeshi; Horiguchi Minoru; Yamada Hanako
hisaishi.m@gmail.com,Uchida Kiwamu; Hisaishi Makoto
yasuko-oyama@gmail.com,Oyama Yasuko
ksaki@gmail.com,Inoue Yuta; Yamasaki Toru; Kawaguchi Saki
'''.strip()

df_email_with_names = pd.read_csv(io.StringIO(csv_data))

#
emails = df_email_with_names['email'].str.extract(r'(^.+?)@')
names = df_email_with_names['names'].str.split(r';\s*')
df_email_with_names['corresponding_name'] = [
  j[0] if j else '' for j in [
    [i for i in n if re.search(r'.*?'.join([*e]), i, re.IGNORECASE)]
    for e, n in zip(emails.values[:,0], names)]]

print(df_email_with_names)

#
                    email                                            names   corresponding_name
0       takeshi@gmail.com  Tanaka Takeshi; Horiguchi Minoru; Yamada Hanako       Tanaka Takeshi 
1    hisaishi.m@gmail.com                   Uchida Kiwamu; Hisaishi Makoto      Hisaishi Makoto 
2  yasuko-oyama@gmail.com                                     Oyama Yasuko                      
3         ksaki@gmail.com        Inoue Yuta; Yamasaki Toru; Kawaguchi Saki       Kawaguchi Saki
```
**追記**

> `df_email_with_names['corresponding_name']` のコードについて、噛み砕いてどのような動作をしているのか

`email` を `ksaki@gmail.com`, `names` を `Inoue Yuta; Yamasaki Toru; Kawaguchi Saki` の場合で説明してみます。

```python
[j[0] if j else '' for j in [
  [i for i in n if re.search(r'.*?'.join([*e]), i, re.IGNORECASE)]
  for e, n in zip(emails.values[:,0], names)]]

# zip の部分の e と n
for e, n in zip(emails.values[:,0], names)
e => 'ksaki'
n => ['Inoue Yuta', 'Yamasaki Toru', 'Kawaguchi Saki']

# 次の内包表記で names と照合
[i for i in n if re.search(r'.*?'.join([*e]), i, re.IGNORECASE)]
# email 文字列を一文字づつに分解して '.*?' で join
r'.*?'.join([*e]) => r'k.*?s.*?a.*?k.*?i'
# names と照合(大文字・小文字の違いは無視)、'Kawaguchi Saki' にマッチ
re.search(r'.*?'.join([*e]), i, re.IGNORECASE)
=>
  re.search(r'k.*?s.*?a.*?k.*?i', 'Inoue Yuta', re.IGNORECASE)
  re.search(r'k.*?s.*?a.*?k.*?i', 'Yamasaki Toru', re.IGNORECASE)
  re.search(r'k.*?s.*?a.*?k.*?i', 'Kawaguchi Saki', re.IGNORECASE)

# 最後の内包表記ではマッチする名前がない email に関しては
# corresponding_name を空文字列('')に置き換えています
[j[0] if j else '' for j in [ ... ]]
```

**追記 Part 2**

> 以下の組み合わせについては抽出することができないようです。
> `email=hidehikaneko-abc@gmail.com`, `names=Kaneko Hidehiro; Itoh Hidetaka`

> names列の姓と名を入れ替えて、…

姓と名を入れ替えて、で思い付いた事がありまして、以下の様に書き替えてみました。これで `Kaneko Hidehiro` も抽出できます。

```python
df_email_with_names['corresponding_name'] = [
  j[0] if j else '' for j in [[
    i for i in n
    if any(re.search(r'.*?'.join([*e]), j, re.IGNORECASE)
           for j in (i, re.sub(r'^(.+?)\s+(.+)', r'\2 \1', i)))
  ] for e, n in zip(emails, names)]]
```

index	email	names
0	takashi@gmail.com	Tanaka Takeshi; 　Horiguchi Minoru; Yamada Hanako
1	hima@gmail.com	Uchida Kiwamu; Hisaishi Makoto
2	yasuko-oyama@gmail.com	Oyama Yasuko
...	...	...
100	ksaki@gmail.com	Inoue Yuta; Yamasaki Toru;　Kawaguchi Saki

関連した質問