編集履歴

回答編集履歴

修正

2023/03/04 04:50

投稿

スコア0

answer CHANGED Viewed

@@ -1,10 +1,11 @@
 ID毎に、1,2または1,2以外の２種類の日付を昇順にキューで管理することで処理速度はあがると思います。
+ただし、このコードでも200万行だとデータ分布にもよりますが数分はかかります。
 ```Python
 import pandas as pd
 from collections import deque
 from io import StringIO
+from itertools import product
 s = """date,ID,no
 2022-01-01,1,1
@@ -17,6 +18,12 @@
 """
 df = pd.read_csv(StringIO(s), parse_dates=['date'])
+# 2192000 rows
+#data = product(pd.date_range('2020-01-01','2022-12-31'), range(100), range(20))
+#df = pd.DataFrame(data=data, columns=['date','ID','no'])
+print(df)
 # 古い日付を削除
 def remove(q,dt):
     while len(q) > 0:
@@ -27,8 +34,8 @@
 # （同日を除く）対象数を取得
 def count(q,dt):
     cnt = len(q)
-    for i in range(cnt):
+    for i in reversed(q):
-        if (dt - q[-(i+1)]).days >= 1:
+        if (dt - i).days >= 1:
             break
         cnt -= 1
     return cnt
@@ -55,7 +62,6 @@
 df = df.sort_values('date')
 que = {} # キー=ID, 値=[1,2以外の日付, 1,2の日付]
 df['ab'] = df.apply(func, axis=1)
 print(df)
@@ -69,4 +75,4 @@
 5 2022-02-01   1   3  (3, 2)
 6 2022-08-01   1   1  (3, 2)
 """
-```
+```