Pythonのデータ集計を高速化したい

実現したいこと

Pythonのデータ集計を高速化する方法についてアドバイスいただきたいです
以下のテキスト処理が5時間程度かかります。
PCのスペックではなく、プログラムの書き方で高速化できる事は高速化したいと考えております。
アドバイスいただけますと幸いです。

プログラムの内容

テキストファイルを読み込んで、アラームが出た日時とカメラ名をリスト化し、
カメラ名毎に1時間ごとのアラーム回数をCSV出力するもの

テキストファイル:　HIKVisionカメラの動体検知ログをエクスポートしたもの

テキストファイルの内容

1アラームあたり10行、合計2000万行

----------------------------
258454    2021-12-9 4:54:11
----------------------------
メインリスト: アラーム録画
サブリスト: 動体検知開始
ローカルユーザー: N/A
ホストIPアドレス: N/A
パラメータタイプ: N/A
カメラ No.: D1

該当のソースコード

Python3
1
2import os
3import pandas as pd
4from datetime import datetime
5
6log_path= r'C:\Users\logBack.txt'
7with open(log_path,'r', encoding='shift_jis',errors='ignore') as f:
8    logtxt = pd.DataFrame(f.readlines())
9    print('txtファイル読み込み完了')
10r = logtxt
11r = r.astype('str')
12
13
14result = pd.DataFrame(columns=['Date','CameraName','num']).\
15         astype({'Date': datetime, 'CameraName' : str, 'num' : int})
16
17print('テキストファイルのDataFrameへの変換完了')
18
19num_rows = len(r)
20
21# 動体検知という文字を見つけたら、日付とカメラ名を記録する
22for i, line in r.iterrows():
23    if "動体検知開始" in str(line) and i > 4:
24      result = result.append({'Date': datetime.strptime(str(r.iloc[i-3].values[0].strip()[10:]), '%Y-%m-%d %H:%M:%S'),'CameraName' : r.iloc[i+4].values[0].replace('カメラ No.: ','').strip(), 'num' : 1} , ignore_index=True)
25      if i % 10000 == 0:
26        print(f'動体検知検索中 {num_rows}行中　{i}行目処理中　')
27
28#カメラ毎のヒストリーデータを入れるカメラリストの準備
29df_cameralists = pd.DataFrame(result.loc[:]["CameraName"].drop_duplicates())
30df_cameralists['historical_data'] = ''
31df_cameralists = df_cameralists.set_index('CameraName')
32
33#カメラ毎にヒストリーデータを入れていく
34print('ヒストリーデータの計算開始')
35for camera_name, historicaldata in df_cameralists.itertuples():
36    # result からカメラ名で抜き出し、Date列で時間毎に集計する
37    df_cameralists.at[camera_name,'historical_data'] = result[result['CameraName']==camera_name].set_index('Date').resample('H').sum()
38    print(f'{camera_name}の計算完了')
39
40#カメラ毎にCSV出力していく
41for camera_name , df_historical_data in df_cameralists.itertuples():
42    df_historical_data.to_csv(f'{camera_name}.csv')
43    print(f'{camera_name}のcsv出力完了')

よろしくお願いいたします。

yamap55

2022/06/03 01:50

どこの処理に時間がかかっているのでしょうか？読み込みなのか、DF化なのか、各処理なのか。 pandasに詳しくない上、2000万行のテキストがどの位のサイズになるかわかりませんが、PCスペックによってはメモリに乗らないのではないかと思いました。

tyamzak_

2022/06/03 03:15

テキストのサイズは500MBくらいでした。 # 動体検知という文字を見つけたら、日付とカメラ名を記録する : 2時間 #カメラ毎にヒストリーデータを入れていく : 3時間残りの処理は1分に満たない時間で納まっています。

行動規範の内容に同意します

回答1件

ベストアンサー

ログファイルは全読込せずに、行毎に必要なものだけ処理する。
（カメラ→日付リスト辞書のように）必要なデータのみ保持する。

以上により、以下のようなコードにて、約450MBのテストデータを数十秒で処理できました。

Python
1import pandas as pd
2from datetime import datetime
3from collections import deque
4
5def read_log(path):
6
7    cams = dict() # キー=カメラ, 値=日時リスト
8
9    with open(path, 'r', encoding='shift_jis', errors='ignore') as f:
10        read_state = 0
11        que = deque(maxlen=5)
12        while True:
13            line = f.readline()
14            if not line:
15                break
16
17            que.append(line) # いったん流れた日時行を取得するため直近5行をキューに保持
18
19            if read_state == 0:   # 開始行の探索中
20                if line.startswith('サブリスト: 動体検知開始'):
21                    line = que[-4] # 日時行
22                    pos = line.find(' ')
23                    dt = datetime.strptime(line[pos+1:].strip(), '%Y-%m-%d %H:%M:%S')
24                    read_state = 1
25
26            elif read_state == 1: # カメラ行の探索中
27                if line.startswith('カメラ No.:'):
28                    cam = line.split(':')[1].strip()
29                    if cam not in cams:
30                        cams[cam] = []
31                    cams[cam].append(dt)
32                    read_state = 0
33
34    return cams
35
36cams = read_log('logTest.txt')
37print('read_log end.')
38
39# 結果をカメラ毎にCSV出力
40for cam, dts in cams.items():
41    df = pd.DataFrame({'Date':dts})
42    df['cnt'] = 1
43    df = df.set_index('Date')
44    df = df.resample('H').sum()
45    df.to_csv(f'{cam}.csv')

make_test_log.py : テストデータ作成

Python
1from datetime import datetime, timedelta
2import random
3
4def make_test_log(path, n=1):
5    random.seed(110)
6    dt_cur = datetime(2022,6,3,12)
7    dt_delta = timedelta(seconds=1)
8    with open(path, 'w', encoding='shift_jis') as f:
9        for i in range(n):
10            log_id = i+1
11            log_time = dt_cur.strftime('%Y-%m-%d %H:%M:%S')
12            mes = '開始' if random.randint(0,1) == 1 else '終了'
13            cam_no = f'D{random.randint(1,10)}'
14            dt_cur += dt_delta
15
16            lines = f"""----------------------------
17{log_id}    {log_time}
18----------------------------
19メインリスト: アラーム録画
20サブリスト: 動体検知{mes}
21ローカルユーザー: N/A
22ホストIPアドレス: N/A
23パラメータタイプ: N/A
24カメラ No.: {cam_no}
25
26"""
27            f.write(lines)
28
29make_test_log('logTest.txt', 2000000)

D1.csv

PlainText
1Date,cnt
22022-06-03 12:00:00,196
32022-06-03 13:00:00,204
42022-06-03 14:00:00,197
52022-06-03 15:00:00,178
62022-06-03 16:00:00,189
7：

投稿2022/06/03 05:02

8524ba23

総合スコア38352

tyamzak_

2022/06/03 11:32

すごい、28秒で終わりました。ありがとうございます。しっかり勉強させていただきます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

実現したいこと

プログラムの内容

テキストファイルの内容

該当のソースコード

関連した質問