python csvのループ処理の高速化

前提

Python3.6で、csvを読み込み、条件に該当する時刻から10分以内を条件として、さらに該当する条件のものを抽出するスクリプトを作成しています。
具体的には、以下のようなcsvを読み込み、値が「none」の場合に、①当該時刻から10分以内の範囲を検索し、②同じユーザーかつ同じ値の個数をカウントし、③10個以上あれば当該ユーザーを別のcsvに吐き出すという処理をするものです。

以下のcsvであれば、2022/05/26 20:52:15から2022/05/26 21:00:22の間に、ユーザーAの値が11回noneとなっているので、Aが新たなcsvに吐き出されるようにしようとしています。

しかし、自分の書いたスクリプトでは最初の「none」(ヘッダを含め4行目)を検出し、①から③の条件を確認後、次の処理に進んだ際に読み込んでいるcsvの行が意図しない箇所(ヘッダを含め18行目、条件確認後、処理を終了した行の続き)に進んでいました。
本来であれば、最初の「none」を検出した後、条件に一致しないので次の行からの処理に進み、2回目のnone(ヘッダを含め8行目)を検出して条件の確認、次は3回目のnoneを検出とやっていきたいのですが、ループ処理が上手くいかず詰まっているところです。(自己解決済み)

しかし、対象のcsvが50万行程あるため自分の書いたスクリプトでは物凄い時間が掛かってしまいます。
大量の行があるcsvに対してfor文を3回も使用しているのが原因だと思っているのですが、解決方法が分からず困っているため、お知恵を拝借できればと思っております。
どうぞよろしくお願いいたします。

date,user,atai
2022/05/26 20:41:03,A,koko
2022/05/26 20:42:46,B,atgk
2022/05/26 20:44:08,C,none
2022/05/26 20:47:44,D,moge
2022/05/26 20:48:17,E,yuik
2022/05/26 20:49:06,F,aaaa
2022/05/26 20:50:19,G,none
2022/05/26 20:50:56,H,123
2022/05/26 20:51:33,I,abc
2022/05/26 20:52:00,J,aaa
2022/05/26 20:52:15,A,none
2022/05/26 20:53:15,A,none
2022/05/26 20:53:30,A,none
2022/05/26 20:53:37,K,999
2022/05/26 20:54:05,A,none
2022/05/26 20:55:37,A,none
2022/05/26 20:57:44,A,none
2022/05/26 20:57:49,L,111
2022/05/26 20:58:11,A,none
2022/05/26 20:59:02,A,none
2022/05/26 20:59:58,A,none
2022/05/26 21:00:01,A,none
2022/05/26 21:00:11,A,none
2022/05/26 21:00:22,A,none
2022/05/26 21:01:16,M,111
2022/05/26 21:02:00,N,222
2022/05/26 21:03:22,O,333
2022/05/26 21:04:22,P,444
2022/05/26 21:05:22,Q,555

該当のソースコード

import csv
from datetime import datetime,timedelta

# CSVファイルのパス設定
source_file_path = "hoge.csv" 
result_file_path = "result.csv"

# CSV読み込み
def load_csv(filename, encoding="utf-8"):
	with open(filename, encoding=encoding) as input_file:
		yield from csv.reader(input_file)

# CSV保存
def save_csv(filename, rows, newline=""):
	with open(filename, "w", newline=newline) as output_file:
		csv_writer = csv.writer(output_file)
		csv_writer.writerows(rows)

#　条件(条件①～③)
def process_2(day, us, at, csv):
	count = 0
	for date, user, atai in csv:
		aaa = datetime.strptime(date,"%Y/%m/%d %H:%M:%S")

		if aaa - day < timedelta(minutes = 10) and user == us and atai ==  at:
			count += 1
		elif aaa - day > timedelta(minutes = 11):
			break
		else:
			pass
	return count

#　条件(特定の値を検出)			
def process_1(csv):
	for date, user, atai in csv:
			if atai == "none":
				aa = datetime.strptime(date,"%Y/%m/%d %H:%M:%S")
				bb = user
				cc = atai
				csv2 = load_csv(source_file_path)
				for date, user, atai in csv2
				     dd = process_2(aa,bb,cc,csv)
				     if dd >= 10:
					yield [date, user]
			else :
				pass
	
def main():
	csv = load_csv(source_file_path)
	extract_csv = process_1(csv)
	save_csv(result_file_path, extract_csv)

if __name__ == "__main__":
    main()

ご質問への回答

■tatsu99様
ご質問ありがとうございます。
回答ですが、1については「基準のレコードを含めて10件以上」となります。
2につきましては、ご質問のとおり「基準となるレコードの時刻とユーザのみ」を想定していましたが、私の環境で実行したところ、該当する条件のものがすべて出力されていました。。
しかし、この部分に関しては全て出力されたとしても、後で簡単に処理できるのでこのままでも良いと思っています。

tatsu99

2022/09/27 10:02

１．１０分以内に１０件以上ということですが、基準のレコード（例では2022/05/26 20:52:15,A,none）を含めて１０件以上ですか、含めないで１０件以上ですか。２．出力イメージはどうなりますか。（基準となるレコードの時刻とユーザのみですか）例では、以下の１行が出力 2022/05/26 20:52:15,A

kokoro01234

2022/09/27 10:11

ご質問ありがとうございます。回答ですが、1については「基準のレコードを含めて10件以上」となります。 2につきましては、ご質問のとおり「基準となるレコードの時刻とユーザのみ」を想定していましたが、私の環境で実行したところ、該当する条件のものがすべて出力されていました。。しかし、この部分に関しては全て出力されたとしても、後で簡単に処理できるのでこのままでも良いと思っています。

行動規範の内容に同意します

回答2件

ベストアンサー

最初にCSVファイルを全件読み込み、値がnoneのレコードのみをリストに取り込み、そのリストを検索するようにしました。不明点があれば補足してください。
テストテータのパターンが少ないので、問題があるかもしれません。
（1ユーザーが出力対象となるケース、２ユーザーが出力対象となるケースのみ試験しています）
50万件の（全レコードがnone）のデータで、１０秒程度でしたので、処理速度は問題ないかと思います。

python3
1import csv
2from datetime import datetime,timedelta
3
4#global変数の設定
5# noneのレコードのみのリスト
6non_array = []  # 0:date 1:=user 2:datetime,3:flag(True/Flase)
7# 出力レコードのリスト
8out_array = []  # 0:date 1:user
9
10# CSVファイルのパス設定
11source_file_path = "hoge.csv"
12result_file_path = "result.csv"
13
14# CSV読み込み
15def load_csv(filename, encoding="utf-8"):
16    global non_array
17    with open(filename, encoding=encoding) as input_file:
18        reader = csv.reader(input_file)
19        #ヘッダはスキップ
20        header = next(input_file)
21        for date,user,atai in reader:
22            # noneのデータのみ格納
23            # date,user,dateのdatetime型,True をnon_arrayへ登録
24            if atai == 'none':
25                wdate =datetime.strptime(date,"%Y/%m/%d %H:%M:%S")
26                non_array.append([date,user,wdate,True])
27
28# CSV保存
29def save_csv(filename,newline=""):
30    global out_array
31    with open(filename, "w", newline=newline) as output_file:
32        csv_writer = csv.writer(output_file)
33        csv_writer.writerows(out_array)
34
35#　sx～最後までnon_arrayを検索する
36#　但しendtimeを超えた場合は打ち切る
37def process_2(sx,user,endtime):
38    global non_array
39    count = 0
40    #検索にマッチしたレコード番号のリスト
41    outix = []
42    for i in range(sx,len(non_array)):
43        #時刻がendtimeを超えた場合は終了
44        if non_array[i][2] > endtime:
45            break
46        #userが一致するレコードの場合、カウントアップ、及びレコード番号を追加
47        if non_array[i][1] == user:
48            count += 1
49            outix.append(i)
50    return count,outix
51
52#　先頭から順に処理する(Falseのレコードは処理済みのためスキップする)
53def process_1():
54    global non_array
55    global out_array
56    band_time = timedelta(minutes=10)
57    for i in range(0,len(non_array)):
58        # True(未処理)のレコードのみ処理
59        if non_array[i][3] == True:
60            #終了時刻
61            wendtime = non_array[i][2] + band_time
62            #user
63            user = non_array[i][1]
64            #当該ユーザーで10分以内のレコード検索
65            count,outix = process_2(i+1,user,wendtime)
66            #合計10件以上なら
67            if count >= 9:
68                #出力リストへ追加
69                out_array.append([non_array[i][0],non_array[i][1]])
70                #non_arrayの検索対象となったレコードを処理済みに設定する
71                for j in outix:
72                    non_array[j][3] = False
73
74def main():
75    load_csv(source_file_path)
76    process_1()
77    save_csv(result_file_path)
78
79if __name__ == "__main__":
80    main()
81

投稿2022/09/27 13:44

編集2022/09/27 13:48

tatsu99

総合スコア5540

kokoro01234

2022/09/27 17:09

tatsu99様回答していただきありがとうございました。スクリプトを修正していただいた上、丁寧な説明まで付けて頂いたので、少し調べるだけでどのような処理をしているのか簡単に理解することができました。特にグローバル変数を扱うようなスクリプトは扱うことがほとんどなかったので、このように使えば良いのかと大変勉強になりましたし、検索対象となったレコードを処理済みに設定するためにTrue・Falseを使う発想は、私には到底思いつくことができず、ただただ感服いたしました。処理についても、私が想定していた通りの結果となっていたことに加え、自身で書いたスクリプトが10時間以上経っても終了していなかったのに、提案頂いたスクリプトでは数秒で処理されて大変感激いたしました。以上のように、私にとって大変勉強になったご回答でしたのでベストアンサーにさせていただきます。また機会がありましたらアドバイスの程よろしくお願いいたします。

行動規範の内容に同意します

以下のようなアルゴリズムではどうでしょう。少しは早いのではないかと。

○ CSVから各user毎のatai==noneの時刻のリストを作る。
ユーザをキーにしてdict に入れるとこんな感じ。

text
1 { 'A': [2022/05/26 20:52:15, 2022/05/26 20:53:15, 2022/05/26 20:53:30...],
2    'B': [... ]}

csvを一回走査するだけで作れます。

○ 作ったdictで、ユーザ毎のリストを見て

10個以下なら、そのユーザは対象外
10個以上あれば、10個起きに見て差が10分以内なら対象
0個めと9個めの差が8分なら、10分以内に10個以上あることになる。

こんな感じです。

投稿2022/09/27 08:53

TakaiY

総合スコア14498

kokoro01234

2022/09/27 17:08

TakaiY様回答していただきありがとうございました。ご提案頂いた通り、リストを辞書化した上で精査するスクリプトを書いてみました。このようなスクリプトを今までに書いたことがなかったので、色々と調べる上で大変勉強になりました。今回は別の方をベストアンサーとさせていただきますが、また機会がありましたらアドバイスの程よろしくお願いいたします。

行動規範の内容に同意します

あなたの回答