python pandas: 重複処理について

Question

DataFrameについて、重複処理を実施しようと考えております。
通常は、Entry_Dateが最新のものを優先するのですが、
例外的に、Sessionが同じ場合には、Media「B」の情報を優先して処理したいです。

|Media|ID|Entry_Date|Session|
|:--|:--:|--:|--:|
|A|001|2020-03-04 00:00:00|東京 2020/04/1 15:00|
|B|001|2020-02-29 10:25:00|東京 2020/04/1 15:00|

現在、行っている処理は、下記のようにEntry_Dateを新しい情報を取得しています。
```ここに言語を入力
df = df.sort_values(by="Entry_Date", ascending=False)
df[~df.duplicated(subset=["ID"])]
```

特定の列「Session」の情報が同じ場合、Entry_Dateの新しい情報ではなく、
Media「B」を優先して抽出する場合にはどのように処理したら良いのでしょうか？

稚拙な質問かとは存じますが、ご教示いただけましたら幸甚です。
何卒よろしくお願い申し上げます。

Accepted Answer

Mediaでも降順ソートしておくといいでしょう。 `by`をlist of strで渡せば、その順で辞書式順序により判定してくれます。

```python
import io
import pandas as pd

data = """
Media	ID	Entry_Date	Session
A	001	2020-03-04 00:00:00	東京 2020/04/1 15:00
B	001	2020-02-29 10:25:00	東京 2020/04/1 15:00
A	002	2020-03-04 00:00:00	東京 2020/04/2 15:00
A	002	2020-02-29 10:25:00	東京 2020/04/2 15:00
"""

df = pd.read_csv(io.StringIO(data), sep="	+", engine="python")
df = df.sort_values(by=["Media", "Entry_Date"], ascending=False)
print(df[~df.duplicated(subset=["ID"])])
""" =>
  Media  ID           Entry_Date             Session
1     B   1  2020-02-29 10:25:00  東京 2020/04/1 15:00
2     A   2  2020-03-04 00:00:00  東京 2020/04/2 15:00
"""
```

[pandas.DataFrame.sort_values — pandas 1.0.3 documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html)

Answer

duplicated関数にSessionとkeep=Falseを指定して重複したレコードを両方とも残しておき、
AND条件でMedia == 'B'で抽出できます。
```python
import pandas as pd

df = pd.DataFrame([["A","001","2020-03-04 00:00:00","東京 2020/04/1 15:00"],
                    ["B","001","2020-02-29 10:25:00","東京 2020/04/1 15:00"]],
                    columns=["Media","ID","Entry_Date","Session"])

print(df[(df.duplicated(subset=["Session"], keep=False)) & (df["Media"] == "B")])
'''
  Media   ID           Entry_Date             Session
1     B  001  2020-02-29 10:25:00  東京 2020/04/1 15:00
'''
```

Media	ID	Entry_Date	Session
A	001	2020-03-04 00:00:00	東京 2020/04/1 15:00
B	001	2020-02-29 10:25:00	東京 2020/04/1 15:00

関連した質問