Pandasデータフレームのある列同士を比較

Pandasで共通のキーを持たない２つの異なるデータフレーム、df1とdf2があり、それぞれの列の要素として、IPV6アドレスの一部を含むdf1の列Aの要素が、df2の列BのIPV6に含まれていたら、df2の列Bに対応する列Aの情報をdf1の新たな列Cとして追加するというような、ExcelのVlookup関数のような結果を期待しております。要素の型はObjectになっております。ご教授の程、よろしくお願いいたします。

df1:
A B
0 xxx1::10:1c: 88
1 xxx1::11:1c: 20
2 xxx1::12:1c: 1165

df2:
A B
0 name1 xxx1::6:1c:6404:8020:1
1 name2 xxx1::10:1c:6404:8020:2
2 name3 xxx1::4:1c:6404:8020:3

------------実行後のdf1のイメージ
df1の0行目がdf2の1行目に部分一致したため、df1のC列にdf2のA列の対応するname2が表示された

df1:
A B　　　　C
0 xxx1::10:1c: 88 name2
1 xxx1::11:1c: 20 NaN
2 xxx1::12:1c: 1165 NaN

yag1kaz

2017/12/05 02:04 編集

IPv6をデータの編集対象に加えるときはもう少し目的（IPv6アドレスにて想定されるネットワークの範囲）か、データ表記のゆれ幅を開示したほうがよいと思います。なぜならIPv6自体が表記ゆれを内包したフォーマットであるためです。例えば、このときのdf1のA列0行のIPv6アドレス表記は、xxx1::10:1c:だけではなく、xxx1::0010:1c:やxxx1:0:0:10:1c:0などがありえます。これはmkgreiさんの方式であっても、magichanさんの方式であっても、共通的に影響をうけます。やろうとされているのはおそらく何らかのログ解析だと思いますのみでミスマッチがふえるかもしれません。（表記ゆれは無いものとする、という前提があるならば、お読み捨てください。）

minhouse10

2017/12/05 02:14

yag1kaz様、有益なアドバイスありがとうございます。ご指摘にあります通り、多くのデバイスがユニークなIPVアドレスをもっているのですが、今回はたくさんあるデバイスのアグリゲーションポイントになっている集約デバイスの名前とのマッチングになり、そのNWを示しているのが、最初の打4までのPrefixになります。ログの都合上どの集約デバイス名は末端のデバイスが持つdf2側にしかないため今回のようなマッチングをしております。ご指摘いただいた点、重要かと思いますので意識してコーディングしていきたいと思います。

行動規範の内容に同意します

回答2件

ベストアンサー

既に解決されているかもしれませんが、こんな書き方もできます。

Python
1import pandas as pd
2
3df1 = pd.DataFrame({
4    'A':['xxx1::10:1c:','xxx1::11:1c:','xxx1::12:1c:'],
5    'B':[88,20,1165]
6})
7df2 = pd.DataFrame({
8    'A':['name1','name2','name3'],
9    'B':['xxx1::6:1c:6404:8020:1',
10         'xxx1::10:1c:6404:8020:2',
11         'xxx1::4:1c:6404:8020:3']
12})
13
14
15df1['C'] = df1['A'].map(df2.set_index(df2.B.str.extract(r'(^\w+::\w+:\w+:)', expand=False))['A'])
16print(df1)
17#               A     B      C
18# 0  xxx1::10:1c:    88  name2
19# 1  xxx1::11:1c:    20    NaN
20# 2  xxx1::12:1c:  1165    NaN

投稿2017/12/04 23:58

magichan

総合スコア15898

minhouse10

2017/12/05 02:08

magichan様、ご回答誠にありがとうございます。なんとなく、str.isinやstr.containsを使ってなんかとできないかと試行錯誤しておりましたが、うまくいきませんでした。この場合正規表現を使ってうまく対応できるのですね。勉強になりました。実行してみてまた結果シェアさせていただきます。

minhouse10

2017/12/05 03:31

magichan様、ご教授いただいた方法により、実際の結果も期待通りの出力されました。改めてありがとうございました。 IPADDRV6 Counts Name 0 xxx::10:1c: 88 name1 1 xxx::11:1c: 20 name2 2 xxx::12:1c: 1165 name3

行動規範の内容に同意します