defで条件を設定しdropしたいが、、、

前提・実現したいこと

購買データでデータ加工の演習をしています。
今、IDと購入日と買上店舗に絞ったData Frameを作り、
同じID×同じ日付×同じ店舗
の組み合わせを一つにまとめたいと考えています。
（下記の例　参考）
cst_id　　　　　　date_purchase_c　Store_code
0　3144054828245　2017-06-14　　　3001
1　3144054828245　2018-09-22　　　5026
2　3144054886139　2017-06-18　　　3001
3　3144054886139　2017-06-18　　　3001
4　3144054886139　2018-07-21　　　3042
5　3144054886139　2018-10-28　　　3042
6　3144055008531　2017-06-11　　　3001
7　3144055018841　2017-06-13　　　3001
8　3144055018841　2017-10-28　　　3220
9　3144055018841　2018-03-15　　　3001

これを実現するためにdefで関数を作り、
条件で行をdropしていきたいのですが、
うまくいきません。

発生している問題・エラーメッセージ

SyntaxError: invalid syntax

該当のソースコード

Python
1#同ID、同日、同店舗を1回としてカウント
2def count_times(times):
3    if (times['cst_id', 'date_purchase_c', 'Store_code'][0] == times['cst_id', 'date_purchase_c', 'Store_code'][1])
4    drop

とにもかくにも
表現がわかりません。。。
少しだけでもいいので、ご教示下さい。。。。

行動規範の内容に同意します

回答1件

ベストアンサー

まとめるというのは重複している行を削除したいということでよろしいでしょうか？

そうであれば、drop_duplicates() をお使いください。

pandas.DataFrame.drop_duplicates — pandas 0.25.0 documentation

drop_duplicates(["列A", "列B"]) とした場合、列A、列Bの値が同じ行が複数ある場合、1行のみ残し、重複する他の行は削除されます。

サンプルコード

入力 CSV

csv
1cst_id,date_purchase_c,Store_code
23144054828245,2017-06-14,3001
33144054828245,2018-09-22,5026
43144054886139,2017-06-18,3001
53144054886139,2017-06-18,3001
63144054886139,2018-07-21,3042
73144054886139,2018-10-28,3042
83144055008531,2017-06-11,3001
93144055018841,2017-06-13,3001
103144055018841,2017-10-28,3220
113144055018841,2018-03-15,3001

python
1import pandas as pd
2
3df = pd.read_csv("untitled.txt")
4print(df)
5#           cst_id date_purchase_c  Store_code
6# 0  3144054828245      2017-06-14        3001
7# 1  3144054828245      2018-09-22        5026
8# 2  3144054886139      2017-06-18        3001
9# 3  3144054886139      2017-06-18        3001
10# 4  3144054886139      2018-07-21        3042
11# 5  3144054886139      2018-10-28        3042
12# 6  3144055008531      2017-06-11        3001
13# 7  3144055018841      2017-06-13        3001
14# 8  3144055018841      2017-10-28        3220
15# 9  3144055018841      2018-03-15        3001
16
17df.drop_duplicates(["cst_id", "date_purchase_c", "Store_code"], inplace=True)
18print(df)
19#           cst_id date_purchase_c  Store_code
20# 0  3144054828245      2017-06-14        3001
21# 1  3144054828245      2018-09-22        5026
22# 2  3144054886139      2017-06-18        3001
23# 4  3144054886139      2018-07-21        3042
24# 5  3144054886139      2018-10-28        3042
25# 6  3144055008531      2017-06-11        3001
26# 7  3144055018841      2017-06-13        3001
27# 8  3144055018841      2017-10-28        3220
28# 9  3144055018841      2018-03-15        3001