SQLのデータをPythonで加工してグラフにしたい（できたけど重い）

SQLiteのデータベースからデータを抽出し、PandasでDataFrameにしてからPythonで加工してグラフにしました。
下記はクチコミのデータを全件抽出して、文字数がどれぐらいの分布をしているのかヒストグラムを描くもので、意図通り動作しています。

python
1import sqlite3
2import pandas as pd
3import matplotlib.pyplot as plt
4
5# DBに接続
6conn = sqlite3.connect('db.sqlite3')
7c = conn.cursor()
8c.execute('''
9    SELECT id, txt
10    FROM comment;
11    ''')
12
13# PandasのDataFrameを作る
14cols = ['id', 'txt_len']
15df = pd.DataFrame(index=[], columns=cols)
16
17# DataFrameにDBのデータを入れる
18while True:
19    line = c.fetchone()
20    if line is None :
21        break
22    df = df.append(pd.Series([line[0], len(line[1])], index=df.columns), ignore_index=True)
23
24print(df['lyric_len'].describe())
25
26# グラフの描画
27plt.hist(x=df['lyric_len'], bins=10)

が、これが結構遅くて、SQLで LIMIT 10000 した状態で30秒ほどかかります。
本当は50万行ぐらいあり、文字数カウントの他にもPythonでいろんな加工をしながらデータの特徴を探してみたいと思っています。
できればもっと早く動くといいと思っているんですが、改善できるところはあるでしょうか？

coco_bauer

2020/08/29 11:48

現状で、どの部分で時間がかかっているのかを調べるべきだと思います。 SQLのサーバと、Pythonの実行が、同じマシンで動作しているのか別のマシンか、別のマシンの場合はネットワークがどうなっているのか等、様々な要因が関係しているでしょうから、それらを切り分けるためには部分部分のレスポンスタイムの把握が必要です。

tachikoma

2020/08/29 14:10

fetchoneを繰り返し呼ぶのは重いような気がするのでfetchmanyかfetchallを使ったほうがよさそうですね。

hacosato

2020/08/29 14:18

coco_bauerさまためしてみたところ、全体で27.4秒かかったうち、27.3秒がwhileループのところでした。残りの0.1秒はグラフの描画で、それ以外は0.1秒以下でした。 start = time.time() を最初の行に入れて、合間合間に print("elapsed_time:{0}".format(time.time() - start) + "[sec]") を入れて調べてみました。

hacosato

2020/08/29 14:19

tachikomaさま > fetchoneを繰り返し呼ぶのは重いような気がするのでfetchmanyかfetchallを使ったほうがよさそうですね。自分もここは重そうな気がしていましたが、その他の手立てはfetchallしか知らず、さすがにallするのは件数が多すぎるのでは…と思っていました。 fetchmanyを知りませんでした。試してみます！