質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

7254閲覧

Pandasデータフレームのある列同士を比較

minhouse10

総合スコア41

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

1グッド

2クリップ

投稿2017/12/04 13:49

Pandasで共通のキーを持たない2つの異なるデータフレーム、df1とdf2があり、それぞれの列の要素として、IPV6アドレスの一部を含むdf1の列Aの要素が、df2の列BのIPV6に含まれていたら、df2の列Bに対応する列Aの情報をdf1の新たな列Cとして追加するというような、ExcelのVlookup関数のような結果を期待しております。要素の型はObjectになっております。ご教授の程、よろしくお願いいたします。


df1:
A B
0 xxx1::10:1c: 88
1 xxx1::11:1c: 20
2 xxx1::12:1c: 1165

df2:
A B
0 name1 xxx1::6:1c:6404:8020:1
1 name2 xxx1::10:1c:6404:8020:2
2 name3 xxx1::4:1c:6404:8020:3

------------実行後のdf1のイメージ
df1の0行目がdf2の1行目に部分一致したため、df1のC列にdf2のA列の対応するname2が表示された

df1:
A B    C
0 xxx1::10:1c: 88 name2
1 xxx1::11:1c: 20 NaN
2 xxx1::12:1c: 1165 NaN

realnao👍を押しています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

yag1kaz

2017/12/05 02:04 編集

IPv6をデータの編集対象に加えるときはもう少し目的(IPv6アドレスにて想定されるネットワークの範囲)か、データ表記のゆれ幅を開示したほうがよいと思います。なぜならIPv6自体が表記ゆれを内包したフォーマットであるためです。例えば、このときのdf1のA列0行のIPv6アドレス表記は、xxx1::10:1c:だけではなく、xxx1::0010:1c:やxxx1:0:0:10:1c:0などがありえます。これはmkgreiさんの方式であっても、magichanさんの方式であっても、共通的に影響をうけます。やろうとされているのはおそらく何らかのログ解析だと思いますのみでミスマッチがふえるかもしれません。(表記ゆれは無いものとする、という前提があるならば、お読み捨てください。)
minhouse10

2017/12/05 02:14

yag1kaz様、有益なアドバイスありがとうございます。ご指摘にあります通り、多くのデバイスがユニークなIPVアドレスをもっているのですが、今回はたくさんあるデバイスのアグリゲーションポイントになっている集約デバイスの名前とのマッチングになり、そのNWを示しているのが、最初の打4までのPrefixになります。ログの都合上どの集約デバイス名は末端のデバイスが持つdf2側にしかないため今回のようなマッチングをしております。ご指摘いただいた点、重要かと思いますので意識してコーディングしていきたいと思います。
guest

回答2

0

ベストアンサー

既に解決されているかもしれませんが、こんな書き方もできます。

Python

1import pandas as pd 2 3df1 = pd.DataFrame({ 4 'A':['xxx1::10:1c:','xxx1::11:1c:','xxx1::12:1c:'], 5 'B':[88,20,1165] 6}) 7df2 = pd.DataFrame({ 8 'A':['name1','name2','name3'], 9 'B':['xxx1::6:1c:6404:8020:1', 10 'xxx1::10:1c:6404:8020:2', 11 'xxx1::4:1c:6404:8020:3'] 12}) 13 14 15df1['C'] = df1['A'].map(df2.set_index(df2.B.str.extract(r'(^\w+::\w+:\w+:)', expand=False))['A']) 16print(df1) 17# A B C 18# 0 xxx1::10:1c: 88 name2 19# 1 xxx1::11:1c: 20 NaN 20# 2 xxx1::12:1c: 1165 NaN

投稿2017/12/04 23:58

magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

minhouse10

2017/12/05 02:08

magichan様、ご回答誠にありがとうございます。なんとなく、str.isinやstr.containsを使ってなんかとできないかと試行錯誤しておりましたが、うまくいきませんでした。この場合正規表現を使ってうまく対応できるのですね。勉強になりました。実行してみてまた結果シェアさせていただきます。
minhouse10

2017/12/05 03:31

magichan様、ご教授いただいた方法により、実際の結果も期待通りの出力されました。改めてありがとうございました。 IPADDRV6 Counts Name 0 xxx::10:1c: 88 name1 1 xxx::11:1c: 20 name2 2 xxx::12:1c: 1165 name3
guest

0

二段階に分けて問題を考えるとスッキリするかと思います。

まずdf1とdf2において共通キーを作ります。具体的にはdf2のIPv6を分離させて新たな行とします。

次にdf1とdf2をmergeします。
例は公式ドキュメントがわかりやすいです。
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html

投稿2017/12/04 14:16

mkgrei

総合スコア8560

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

minhouse10

2017/12/04 14:19

mkgrei様、早速のご回答誠にありがとうございます。 なるほど~、共通の部分が入るPrefixで共通のキーを作るイメージですね。早速リンクを参照しトライいたします。結果はまたこちらで共有させていただきます^^
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問