前提
Python3.6で、csvを読み込み、条件に該当する時刻から10分以内を条件として、さらに該当する条件のものを抽出するスクリプトを作成しています。
具体的には、以下のようなcsvを読み込み、値が「none」の場合に、①当該時刻から10分以内の範囲を検索し、②同じユーザーかつ同じ値の個数をカウントし、③10個以上あれば当該ユーザーを別のcsvに吐き出すという処理をするものです。
以下のcsvであれば、2022/05/26 20:52:15から2022/05/26 21:00:22の間に、ユーザーAの値が11回noneとなっているので、Aが新たなcsvに吐き出されるようにしようとしています。
しかし、自分の書いたスクリプトでは最初の「none」(ヘッダを含め4行目)を検出し、①から③の条件を確認後、次の処理に進んだ際に読み込んでいるcsvの行が意図しない箇所(ヘッダを含め18行目、条件確認後、処理を終了した行の続き)に進んでいました。(自己解決済み)
本来であれば、最初の「none」を検出した後、条件に一致しないので次の行からの処理に進み、2回目のnone(ヘッダを含め8行目)を検出して条件の確認、次は3回目のnoneを検出とやっていきたいのですが、ループ処理が上手くいかず詰まっているところです。
しかし、対象のcsvが50万行程あるため自分の書いたスクリプトでは物凄い時間が掛かってしまいます。
大量の行があるcsvに対してfor文を3回も使用しているのが原因だと思っているのですが、解決方法が分からず困っているため、お知恵を拝借できればと思っております。
どうぞよろしくお願いいたします。
date,user,atai 2022/05/26 20:41:03,A,koko 2022/05/26 20:42:46,B,atgk 2022/05/26 20:44:08,C,none 2022/05/26 20:47:44,D,moge 2022/05/26 20:48:17,E,yuik 2022/05/26 20:49:06,F,aaaa 2022/05/26 20:50:19,G,none 2022/05/26 20:50:56,H,123 2022/05/26 20:51:33,I,abc 2022/05/26 20:52:00,J,aaa 2022/05/26 20:52:15,A,none 2022/05/26 20:53:15,A,none 2022/05/26 20:53:30,A,none 2022/05/26 20:53:37,K,999 2022/05/26 20:54:05,A,none 2022/05/26 20:55:37,A,none 2022/05/26 20:57:44,A,none 2022/05/26 20:57:49,L,111 2022/05/26 20:58:11,A,none 2022/05/26 20:59:02,A,none 2022/05/26 20:59:58,A,none 2022/05/26 21:00:01,A,none 2022/05/26 21:00:11,A,none 2022/05/26 21:00:22,A,none 2022/05/26 21:01:16,M,111 2022/05/26 21:02:00,N,222 2022/05/26 21:03:22,O,333 2022/05/26 21:04:22,P,444 2022/05/26 21:05:22,Q,555
該当のソースコード
import csv from datetime import datetime,timedelta # CSVファイルのパス設定 source_file_path = "hoge.csv" result_file_path = "result.csv" # CSV読み込み def load_csv(filename, encoding="utf-8"): with open(filename, encoding=encoding) as input_file: yield from csv.reader(input_file) # CSV保存 def save_csv(filename, rows, newline=""): with open(filename, "w", newline=newline) as output_file: csv_writer = csv.writer(output_file) csv_writer.writerows(rows) # 条件(条件①~③) def process_2(day, us, at, csv): count = 0 for date, user, atai in csv: aaa = datetime.strptime(date,"%Y/%m/%d %H:%M:%S") if aaa - day < timedelta(minutes = 10) and user == us and atai == at: count += 1 elif aaa - day > timedelta(minutes = 11): break else: pass return count # 条件(特定の値を検出) def process_1(csv): for date, user, atai in csv: if atai == "none": aa = datetime.strptime(date,"%Y/%m/%d %H:%M:%S") bb = user cc = atai csv2 = load_csv(source_file_path) for date, user, atai in csv2 dd = process_2(aa,bb,cc,csv) if dd >= 10: yield [date, user] else : pass def main(): csv = load_csv(source_file_path) extract_csv = process_1(csv) save_csv(result_file_path, extract_csv) if __name__ == "__main__": main()
ご質問への回答
■tatsu99様
ご質問ありがとうございます。
回答ですが、1については「基準のレコードを含めて10件以上」となります。
2につきましては、ご質問のとおり「基準となるレコードの時刻とユーザのみ」を想定していましたが、私の環境で実行したところ、該当する条件のものがすべて出力されていました。。
しかし、この部分に関しては全て出力されたとしても、後で簡単に処理できるのでこのままでも良いと思っています。

回答2件
あなたの回答
tips
プレビュー