質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

1884閲覧

python csvのループ処理の高速化

kokoro01234

総合スコア2

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2022/09/27 04:18

編集2022/09/28 02:09

前提

Python3.6で、csvを読み込み、条件に該当する時刻から10分以内を条件として、さらに該当する条件のものを抽出するスクリプトを作成しています。
具体的には、以下のようなcsvを読み込み、値が「none」の場合に、①当該時刻から10分以内の範囲を検索し、②同じユーザーかつ同じ値の個数をカウントし、③10個以上あれば当該ユーザーを別のcsvに吐き出すという処理をするものです。

以下のcsvであれば、2022/05/26 20:52:15から2022/05/26 21:00:22の間に、ユーザーAの値が11回noneとなっているので、Aが新たなcsvに吐き出されるようにしようとしています。

しかし、自分の書いたスクリプトでは最初の「none」(ヘッダを含め4行目)を検出し、①から③の条件を確認後、次の処理に進んだ際に読み込んでいるcsvの行が意図しない箇所(ヘッダを含め18行目、条件確認後、処理を終了した行の続き)に進んでいました。
本来であれば、最初の「none」を検出した後、条件に一致しないので次の行からの処理に進み、2回目のnone(ヘッダを含め8行目)を検出して条件の確認、次は3回目のnoneを検出とやっていきたいのですが、ループ処理が上手くいかず詰まっているところです。
(自己解決済み)

しかし、対象のcsvが50万行程あるため自分の書いたスクリプトでは物凄い時間が掛かってしまいます。
大量の行があるcsvに対してfor文を3回も使用しているのが原因だと思っているのですが、解決方法が分からず困っているため、お知恵を拝借できればと思っております。
どうぞよろしくお願いいたします。

date,user,atai 2022/05/26 20:41:03,A,koko 2022/05/26 20:42:46,B,atgk 2022/05/26 20:44:08,C,none 2022/05/26 20:47:44,D,moge 2022/05/26 20:48:17,E,yuik 2022/05/26 20:49:06,F,aaaa 2022/05/26 20:50:19,G,none 2022/05/26 20:50:56,H,123 2022/05/26 20:51:33,I,abc 2022/05/26 20:52:00,J,aaa 2022/05/26 20:52:15,A,none 2022/05/26 20:53:15,A,none 2022/05/26 20:53:30,A,none 2022/05/26 20:53:37,K,999 2022/05/26 20:54:05,A,none 2022/05/26 20:55:37,A,none 2022/05/26 20:57:44,A,none 2022/05/26 20:57:49,L,111 2022/05/26 20:58:11,A,none 2022/05/26 20:59:02,A,none 2022/05/26 20:59:58,A,none 2022/05/26 21:00:01,A,none 2022/05/26 21:00:11,A,none 2022/05/26 21:00:22,A,none 2022/05/26 21:01:16,M,111 2022/05/26 21:02:00,N,222 2022/05/26 21:03:22,O,333 2022/05/26 21:04:22,P,444 2022/05/26 21:05:22,Q,555

該当のソースコード

import csv from datetime import datetime,timedelta # CSVファイルのパス設定 source_file_path = "hoge.csv" result_file_path = "result.csv" # CSV読み込み def load_csv(filename, encoding="utf-8"): with open(filename, encoding=encoding) as input_file: yield from csv.reader(input_file) # CSV保存 def save_csv(filename, rows, newline=""): with open(filename, "w", newline=newline) as output_file: csv_writer = csv.writer(output_file) csv_writer.writerows(rows) # 条件(条件①~③) def process_2(day, us, at, csv): count = 0 for date, user, atai in csv: aaa = datetime.strptime(date,"%Y/%m/%d %H:%M:%S") if aaa - day < timedelta(minutes = 10) and user == us and atai == at: count += 1 elif aaa - day > timedelta(minutes = 11): break else: pass return count # 条件(特定の値を検出) def process_1(csv): for date, user, atai in csv: if atai == "none": aa = datetime.strptime(date,"%Y/%m/%d %H:%M:%S") bb = user cc = atai csv2 = load_csv(source_file_path) for date, user, atai in csv2 dd = process_2(aa,bb,cc,csv) if dd >= 10: yield [date, user] else : pass def main(): csv = load_csv(source_file_path) extract_csv = process_1(csv) save_csv(result_file_path, extract_csv) if __name__ == "__main__": main()

ご質問への回答

■tatsu99様
ご質問ありがとうございます。
回答ですが、1については「基準のレコードを含めて10件以上」となります。
2につきましては、ご質問のとおり「基準となるレコードの時刻とユーザのみ」を想定していましたが、私の環境で実行したところ、該当する条件のものがすべて出力されていました。。
しかし、この部分に関しては全て出力されたとしても、後で簡単に処理できるのでこのままでも良いと思っています。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tatsu99

2022/09/27 10:02

1.10分以内に10件以上ということですが、 基準のレコード(例では2022/05/26 20:52:15,A,none)を含めて10件以上ですか、含めないで10件以上ですか。 2.出力イメージはどうなりますか。 (基準となるレコードの時刻とユーザのみですか) 例では、以下の1行が出力 2022/05/26 20:52:15,A
kokoro01234

2022/09/27 10:11

ご質問ありがとうございます。 回答ですが、1については「基準のレコードを含めて10件以上」となります。 2につきましては、ご質問のとおり「基準となるレコードの時刻とユーザのみ」を想定していましたが、私の環境で実行したところ、該当する条件のものがすべて出力されていました。。 しかし、この部分に関しては全て出力されたとしても、後で簡単に処理できるのでこのままでも良いと思っています。
guest

回答2

0

ベストアンサー

最初にCSVファイルを全件読み込み、値がnoneのレコードのみをリストに取り込み、そのリストを検索するようにしました。不明点があれば補足してください。
テストテータのパターンが少ないので、問題があるかもしれません。
(1ユーザーが出力対象となるケース、2ユーザーが出力対象となるケースのみ試験しています)
50万件の(全レコードがnone)のデータで、10秒程度でしたので、処理速度は問題ないかと思います。

python3

1import csv 2from datetime import datetime,timedelta 3 4#global変数の設定 5# noneのレコードのみのリスト 6non_array = [] # 0:date 1:=user 2:datetime,3:flag(True/Flase) 7# 出力レコードのリスト 8out_array = [] # 0:date 1:user 9 10# CSVファイルのパス設定 11source_file_path = "hoge.csv" 12result_file_path = "result.csv" 13 14# CSV読み込み 15def load_csv(filename, encoding="utf-8"): 16 global non_array 17 with open(filename, encoding=encoding) as input_file: 18 reader = csv.reader(input_file) 19 #ヘッダはスキップ 20 header = next(input_file) 21 for date,user,atai in reader: 22 # noneのデータのみ格納 23 # date,user,dateのdatetime型,True をnon_arrayへ登録 24 if atai == 'none': 25 wdate =datetime.strptime(date,"%Y/%m/%d %H:%M:%S") 26 non_array.append([date,user,wdate,True]) 27 28# CSV保存 29def save_csv(filename,newline=""): 30 global out_array 31 with open(filename, "w", newline=newline) as output_file: 32 csv_writer = csv.writer(output_file) 33 csv_writer.writerows(out_array) 34 35# sx~最後までnon_arrayを検索する 36# 但しendtimeを超えた場合は打ち切る 37def process_2(sx,user,endtime): 38 global non_array 39 count = 0 40 #検索にマッチしたレコード番号のリスト 41 outix = [] 42 for i in range(sx,len(non_array)): 43 #時刻がendtimeを超えた場合は終了 44 if non_array[i][2] > endtime: 45 break 46 #userが一致するレコードの場合、カウントアップ、及びレコード番号を追加 47 if non_array[i][1] == user: 48 count += 1 49 outix.append(i) 50 return count,outix 51 52# 先頭から順に処理する(Falseのレコードは処理済みのためスキップする) 53def process_1(): 54 global non_array 55 global out_array 56 band_time = timedelta(minutes=10) 57 for i in range(0,len(non_array)): 58 # True(未処理)のレコードのみ処理 59 if non_array[i][3] == True: 60 #終了時刻 61 wendtime = non_array[i][2] + band_time 62 #user 63 user = non_array[i][1] 64 #当該ユーザーで10分以内のレコード検索 65 count,outix = process_2(i+1,user,wendtime) 66 #合計10件以上なら 67 if count >= 9: 68 #出力リストへ追加 69 out_array.append([non_array[i][0],non_array[i][1]]) 70 #non_arrayの検索対象となったレコードを処理済みに設定する 71 for j in outix: 72 non_array[j][3] = False 73 74def main(): 75 load_csv(source_file_path) 76 process_1() 77 save_csv(result_file_path) 78 79if __name__ == "__main__": 80 main() 81

投稿2022/09/27 13:44

編集2022/09/27 13:48
tatsu99

総合スコア5424

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kokoro01234

2022/09/27 17:09

tatsu99様 回答していただきありがとうございました。 スクリプトを修正していただいた上、丁寧な説明まで付けて頂いたので、少し調べるだけでどのような処理をしているのか簡単に理解することができました。 特にグローバル変数を扱うようなスクリプトは扱うことがほとんどなかったので、このように使えば良いのかと大変勉強になりましたし、検索対象となったレコードを処理済みに設定するためにTrue・Falseを使う発想は、私には到底思いつくことができず、ただただ感服いたしました。 処理についても、私が想定していた通りの結果となっていたことに加え、自身で書いたスクリプトが10時間以上経っても終了していなかったのに、提案頂いたスクリプトでは数秒で処理されて大変感激いたしました。 以上のように、私にとって大変勉強になったご回答でしたのでベストアンサーにさせていただきます。 また機会がありましたらアドバイスの程よろしくお願いいたします。
guest

0

以下のようなアルゴリズムではどうでしょう。少しは早いのではないかと。

○ CSVから各user毎のatai==noneの時刻のリストを作る。
ユーザをキーにしてdict に入れるとこんな感じ。

text

1 { 'A': [2022/05/26 20:52:15, 2022/05/26 20:53:15, 2022/05/26 20:53:30...], 2 'B': [... ]}

csvを一回走査するだけで作れます。

○ 作ったdictで、ユーザ毎のリストを見て

  • 10個以下なら、そのユーザは対象外
  • 10個以上あれば、10個起きに見て差が10分以内なら対象
    0個めと9個めの差が8分なら、10分以内に10個以上あることになる。

こんな感じです。

投稿2022/09/27 08:53

TakaiY

総合スコア12657

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kokoro01234

2022/09/27 17:08

TakaiY様 回答していただきありがとうございました。 ご提案頂いた通り、リストを辞書化した上で精査するスクリプトを書いてみました。 このようなスクリプトを今までに書いたことがなかったので、色々と調べる上で大変勉強になりました。 今回は別の方をベストアンサーとさせていただきますが、また機会がありましたらアドバイスの程よろしくお願いいたします。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問