pandas同士を前方一致させてマージする方法について

前提・実現したいこと

pandasの2つのデータフレームが、以下の例のように存在しています。

ここで、それぞれの2つのカラム名を閾値をもとに前方一致させ、それらをキーにしてデータをマージしたいと考えております。

インプットのデータフレームの例

df = 
name, size
犬Aの小さい個体の体長, 15
猫Aの小さい個体の体長, 13
金魚Aの体長, 1
犬Aの大きい個体の体長, 110
猫Aの大きい個体の体長, 100

master_df =
name, number_of_types
犬, 700
猫, 500
金魚, 100
：

アウトプットのデータフレームの例

output_df =
name, number_of_types
犬, 700, 犬Aの小さい個体の体長, 15
犬, 700, 犬Aの大きい個体の体長, 110
猫, 500, 猫Aの小さい個体の体長, 13
猫, 500, 猫Aの大さい個体の体長, 100
金魚, 100, 金魚Aの体長, 1
：

参考：エクセル上での抽出イメージ

前方一致検索でVLOOKUPを使うと出来ます。
このような内容をpythonで書きたいです。
https://office-hack.com/excel/vlookup-wildcard/

考えたこと

完全一致や部分一致で特定のdfから条件に合うものは、以下のように書けると思います。

df_master['name'] == '犬'
df['name'].str.contains('犬', na=False)

上記のような抽出のイメージはあるのですが、2つのpandasのデータフレーム上で検索して前方一致でマージする方法についてお知恵を拝借できましたら幸いです。
何卒よろしくお願い申し上げます。

行動規範の内容に同意します

回答2件

ベストアンサー

Python
1master_df['name'].apply(lambda n: df['name'].str.startswith(n)).idxmax()

にて対象となるデータフレームの Index値を得ることができるかと思いますので、あとは pandas.merge() すると良いかと思います。

Python
1import pandas as pd
2
3df = pd.DataFrame({
4    'name' : ['犬Aの小さい個体の体長', '猫Aの小さい個体の体長',
5              '金魚Aの体長', '犬Aの大きい個体の体長', '猫Aの大きい個体の体長'],
6    'size' : [15, 13, 1, 110, 100]})
7master_df = pd.DataFrame({
8    'name' : ['犬', '猫', '金魚'],
9    'number_of_types' : [700, 500, 100]})
10
11df['target'] = master_df['name'].apply(lambda n: df['name'].str.startswith(n)).idxmax()
12
13ret = pd.merge(df, master_df, left_on='target', right_index=True, how='left').drop('target', axis=1)
14#        name_x  size name_y  number_of_types
15#0  犬Aの小さい個体の体長    15      犬              700
16#1  猫Aの小さい個体の体長    13      猫              500
17#2       金魚Aの体長     1     金魚              100
18#3  犬Aの大きい個体の体長   110      犬              700
19#4  猫Aの大きい個体の体長   100      猫              500

投稿2020/03/23 08:32

編集2020/03/23 08:33

magichan

総合スコア15898

dfに別の列を作ってdfのnameにmaster_dfのnameが含まれていたら、
master_dfのnameを登録しておいてそれをキーとして利用する方法はどうでしょう。

python
1import pandas as pd
2
3df = pd.DataFrame(
4    [['犬Aの小さい個体の体長', 15],
5    ['猫Aの小さい個体の体長', 13],
6    ['金魚Aの体長', 1],
7    ['犬Aの大きい個体の体長', 110],
8    ['猫Aの大きい個体の体長', 100]],
9    columns=['name', 'size'])
10
11master_df = pd.DataFrame(
12    [['犬', 700],
13    ['猫', 500],
14    ['金魚', 100]],
15    columns=['name', 'number_of_types'])
16
17#master_dfのname列を繰り返し処理
18for column_name, item in master_df.name.iteritems():
19    #dfのnameにmaster_dfのnameが含まれる場合、master_dfのnameをdfのname_key列として追加
20    df.loc[df.name.str.contains(item), 'name_key'] = item
21print(df)
22'''
23          name  size name_key
240  犬Aの小さい個体の体長    15        犬
251  猫Aの小さい個体の体長    13        猫
262       金魚Aの体長     1       金魚
273  犬Aの大きい個体の体長   110        犬
284  猫Aの大きい個体の体長   100        猫
29'''
30
31#master_dfのname列とdfのname_key列で結合し、name_key列を削除
32output_df = pd.merge(master_df, df, left_on='name', right_on='name_key', how='inner').drop("name_key", axis=1)
33print(output_df)
34'''
35  name_x  number_of_types       name_y  size
360      犬              700  犬Aの小さい個体の体長    15
371      犬              700  犬Aの大きい個体の体長   110
382      猫              500  猫Aの小さい個体の体長    13
393      猫              500  猫Aの大きい個体の体長   100
404     金魚              100       金魚Aの体長     1
41'''