Pandasで複数の列で重複したデータを除去したい。

実現したいこと

タイトル、型番の各列で重複したものを除外したいです。

タイトル	型番	価格
タイトルA	A1	10
タイトルB	B1	20
タイトルC	A1	30
タイトルB	B2	40
タイトルD	C3	50

というデータから　

タイトル	型番	価格
タイトルD	C3	50

を抽出したいです。

タイトル列でタイトルBは重複、　
型番列で型番A1は重複、
これらを除去してデータ抽出したいです。

drop_duplicatesを使用して抽出できそうですが
複数の列に対する抽出方法がわかりません。

すいませんがご教授をお願いします。

行動規範の内容に同意します

回答2件

こんな感じですか。
タイトルと型番に対して、drop_duplicatesしています。
subset=colでそれぞれの列指定、keep=Falseで重複行を全て指定、inplace=Trueでdataframe置き換え

python3
1# テスト用データ作成
2txt = """
3タイトル	型番	    価格
4タイトルA	A1	    10
5タイトルB	B1	    20
6タイトルC	A1	    30
7タイトルB	B2	    40
8タイトルD	C3	50
9"""
10import io
11import pandas as pd
12df = pd.read_table(io.StringIO(txt), sep="\t")
13
14# ここから処理
15for col in ["タイトル", "型番"]:
16    df.drop_duplicates(subset=col,keep=False,inplace=True)
17print(df)
18"""
19    タイトル	型番	価格
204	タイトルD	C3	50
21"""

投稿2020/07/15 06:18

jeanbiego

総合スコア3966

kenone

2020/07/16 02:02

回答ありがとうございます。 drop_duplicatesの使い方が良くわかりました。

行動規範の内容に同意します

ベストアンサー

以下のように.duplicated(で重複行を抽出し、その結果をor演算し、さらにnotした結果が求める行になるかと思います。

Python
1import pandas as pd
2from io import StringIO
3
4s = """タイトル,型番,価格
5タイトルA,A1,10
6タイトルB,B1,20
7タイトルC,A1,30
8タイトルB,B2,40
9タイトルD,C3,50"""
10df = pd.read_csv(StringIO(s))
11
12dt = df.duplicated('タイトル', keep=False) # keep=False 重複した行はどれも削除
13dk = df.duplicated('型番', keep=False)
14df = df[~(dt|dk)]
15print(df)
16#    タイトル  型番  価格
17#5  タイトルD  C3  50