質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
86.12%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

解決済

python csvのループ処理の高速化

kokoro01234
kokoro01234

総合スコア2

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

2回答

0リアクション

0クリップ

473閲覧

投稿2022/09/27 04:18

編集2022/09/27 10:14

前提

Python3.6で、csvを読み込み、条件に該当する時刻から10分以内を条件として、さらに該当する条件のものを抽出するスクリプトを作成しています。
具体的には、以下のようなcsvを読み込み、値が「none」の場合に、①当該時刻から10分以内の範囲を検索し、②同じユーザーかつ同じ値の個数をカウントし、③10個以上あれば当該ユーザーを別のcsvに吐き出すという処理をするものです。

以下のcsvであれば、2022/05/26 20:52:15から2022/05/26 21:00:22の間に、ユーザーAの値が11回noneとなっているので、Aが新たなcsvに吐き出されるようにしようとしています。

しかし、自分の書いたスクリプトでは最初の「none」(ヘッダを含め4行目)を検出し、①から③の条件を確認後、次の処理に進んだ際に読み込んでいるcsvの行が意図しない箇所(ヘッダを含め18行目、条件確認後、処理を終了した行の続き)に進んでいました。
本来であれば、最初の「none」を検出した後、条件に一致しないので次の行からの処理に進み、2回目のnone(ヘッダを含め8行目)を検出して条件の確認、次は3回目のnoneを検出とやっていきたいのですが、ループ処理が上手くいかず詰まっているところです。
(自己解決済み)

しかし、対象のcsvが50万行程あるため自分の書いたスクリプトでは物凄い時間が掛かってしまいます。
大量の行があるcsvに対してfor文を3回も使用しているのが原因だと思っているのですが、解決方法が分からず困っているため、お知恵を拝借できればと思っております。
どうぞよろしくお願いいたします。

date,user,atai 2022/05/26 20:41:03,A,koko 2022/05/26 20:42:46,B,atgk 2022/05/26 20:44:08,C,none 2022/05/26 20:47:44,D,moge 2022/05/26 20:48:17,E,yuik 2022/05/26 20:49:06,F,aaaa 2022/05/26 20:50:19,G,none 2022/05/26 20:50:56,H,123 2022/05/26 20:51:33,I,abc 2022/05/26 20:52:00,J,aaa 2022/05/26 20:52:15,A,none 2022/05/26 20:53:15,A,none 2022/05/26 20:53:30,A,none 2022/05/26 20:53:37,K,999 2022/05/26 20:54:05,A,none 2022/05/26 20:55:37,A,none 2022/05/26 20:57:44,A,none 2022/05/26 20:57:49,L,111 2022/05/26 20:58:11,A,none 2022/05/26 20:59:02,A,none 2022/05/26 20:59:58,A,none 2022/05/26 21:00:01,A,none 2022/05/26 21:00:11,A,none 2022/05/26 21:00:22,A,none 2022/05/26 21:01:16,M,111 2022/05/26 21:02:00,N,222 2022/05/26 21:03:22,O,333 2022/05/26 21:04:22,P,444 2022/05/26 21:05:22,Q,555

該当のソースコード

import csv from datetime import datetime,timedelta # CSVファイルのパス設定 source_file_path = "hoge.csv" result_file_path = "result.csv" # CSV読み込み def load_csv(filename, encoding="utf-8"): with open(filename, encoding=encoding) as input_file: yield from csv.reader(input_file) # CSV保存 def save_csv(filename, rows, newline=""): with open(filename, "w", newline=newline) as output_file: csv_writer = csv.writer(output_file) csv_writer.writerows(rows) # 条件(条件①~③) def process_2(day, us, at, csv): count = 0 for date, user, atai in csv: aaa = datetime.strptime(date,"%Y/%m/%d %H:%M:%S") if aaa - day < timedelta(minutes = 10) and user == us and atai == at: count += 1 elif aaa - day > timedelta(minutes = 11): break else: pass return count # 条件(特定の値を検出) def process_1(csv): for date, user, atai in csv: if atai == "none": aa = datetime.strptime(date,"%Y/%m/%d %H:%M:%S") bb = user cc = atai csv2 = load_csv(source_file_path) for date, user, atai in csv2 dd = process_2(aa,bb,cc,csv) if dd >= 10: yield [date, user] else : pass def main(): csv = load_csv(source_file_path) extract_csv = process_1(csv) save_csv(result_file_path, extract_csv) if __name__ == "__main__": main()

ご質問への回答

■tatsu99様
ご質問ありがとうございます。
回答ですが、1については「基準のレコードを含めて10件以上」となります。
2につきましては、ご質問のとおり「基準となるレコードの時刻とユーザのみ」を想定していましたが、私の環境で実行したところ、該当する条件のものがすべて出力されていました。。
しかし、この部分に関しては全て出力されたとしても、後で簡単に処理できるのでこのままでも良いと思っています。

以下のような質問にはリアクションをつけましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

リアクションが多い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 間違っている
  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

tatsu99

2022/09/27 10:02

1.10分以内に10件以上ということですが、 基準のレコード(例では2022/05/26 20:52:15,A,none)を含めて10件以上ですか、含めないで10件以上ですか。 2.出力イメージはどうなりますか。 (基準となるレコードの時刻とユーザのみですか) 例では、以下の1行が出力 2022/05/26 20:52:15,A
kokoro01234

2022/09/27 10:11

ご質問ありがとうございます。 回答ですが、1については「基準のレコードを含めて10件以上」となります。 2につきましては、ご質問のとおり「基準となるレコードの時刻とユーザのみ」を想定していましたが、私の環境で実行したところ、該当する条件のものがすべて出力されていました。。 しかし、この部分に関しては全て出力されたとしても、後で簡単に処理できるのでこのままでも良いと思っています。

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
86.12%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。