python pandas: 重複処理について

DataFrameについて、重複処理を実施しようと考えております。
通常は、Entry_Dateが最新のものを優先するのですが、
例外的に、Sessionが同じ場合には、Media「B」の情報を優先して処理したいです。

Media	ID	Entry_Date	Session
A	001	2020-03-04 00:00:00	東京 2020/04/1 15:00
B	001	2020-02-29 10:25:00	東京 2020/04/1 15:00

現在、行っている処理は、下記のようにEntry_Dateを新しい情報を取得しています。

df = df.sort_values(by="Entry_Date", ascending=False)
df[~df.duplicated(subset=["ID"])]

特定の列「Session」の情報が同じ場合、Entry_Dateの新しい情報ではなく、
Media「B」を優先して抽出する場合にはどのように処理したら良いのでしょうか？

稚拙な質問かとは存じますが、ご教示いただけましたら幸甚です。
何卒よろしくお願い申し上げます。

行動規範の内容に同意します

回答2件

ベストアンサー

Mediaでも降順ソートしておくといいでしょう。 byをlist of strで渡せば、その順で辞書式順序により判定してくれます。

python
1import io
2import pandas as pd
3
4data = """
5Media	ID	Entry_Date	Session
6A	001	2020-03-04 00:00:00	東京 2020/04/1 15:00
7B	001	2020-02-29 10:25:00	東京 2020/04/1 15:00
8A	002	2020-03-04 00:00:00	東京 2020/04/2 15:00
9A	002	2020-02-29 10:25:00	東京 2020/04/2 15:00
10"""
11
12df = pd.read_csv(io.StringIO(data), sep="\t+", engine="python")
13df = df.sort_values(by=["Media", "Entry_Date"], ascending=False)
14print(df[~df.duplicated(subset=["ID"])])
15""" =>
16  Media  ID           Entry_Date             Session
171     B   1  2020-02-29 10:25:00  東京 2020/04/1 15:00
182     A   2  2020-03-04 00:00:00  東京 2020/04/2 15:00
19"""

pandas.DataFrame.sort_values — pandas 1.0.3 documentation

投稿2020/03/31 10:19

編集2020/03/31 10:20

hayataka2049

総合スコア30935

john_doe_

2020/03/31 13:58

ご親切にリファレンス情報までご紹介いただきまして大変ありがとうございました。

行動規範の内容に同意します

duplicated関数にSessionとkeep=Falseを指定して重複したレコードを両方とも残しておき、
AND条件でMedia == 'B'で抽出できます。

python
1import pandas as pd
2
3df = pd.DataFrame([["A","001","2020-03-04 00:00:00","東京 2020/04/1 15:00"],
4                    ["B","001","2020-02-29 10:25:00","東京 2020/04/1 15:00"]],
5                    columns=["Media","ID","Entry_Date","Session"])
6
7print(df[(df.duplicated(subset=["Session"], keep=False)) & (df["Media"] == "B")])
8'''
9  Media   ID           Entry_Date             Session
101     B  001  2020-02-29 10:25:00  東京 2020/04/1 15:00
11'''