DataFrameについて、重複処理を実施しようと考えております。
通常は、Entry_Dateが最新のものを優先するのですが、
例外的に、Sessionが同じ場合には、Media「B」の情報を優先して処理したいです。
Media | ID | Entry_Date | Session |
---|---|---|---|
A | 001 | 2020-03-04 00:00:00 | 東京 2020/04/1 15:00 |
B | 001 | 2020-02-29 10:25:00 | 東京 2020/04/1 15:00 |
現在、行っている処理は、下記のようにEntry_Dateを新しい情報を取得しています。
df = df.sort_values(by="Entry_Date", ascending=False) df[~df.duplicated(subset=["ID"])]
特定の列「Session」の情報が同じ場合、Entry_Dateの新しい情報ではなく、
Media「B」を優先して抽出する場合にはどのように処理したら良いのでしょうか?
稚拙な質問かとは存じますが、ご教示いただけましたら幸甚です。
何卒よろしくお願い申し上げます。
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/03/31 13:58