質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.34%

python 処理速度を上げるためにこのコードのどこを改善すれば良いでしょうか?

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 803

score 14

17GBの分かち書き済txtファイルを読み込み、n_gram処理をしているファイルです。処理が非常に遅く心配です。以下のコードを処理速度を上げるために改善できる箇所はあるでしょうか?
教えていただけるととても嬉しいです。

import pandas as pd
import sys
import csv
from collections import Counter

cmd, infile = sys.argv
termFreq = {}

n = 0
for wordArray in open(infile, errors='ignore'):
    wordArray = wordArray.split()
    if wordArray == []:
        continue

    ngram_list = ([(wordArray[i], wordArray[i+1], wordArray[i+2]) for i in range(len(wordArray)-2)])


    for n_word in ngram_list:
      if n_word in termFreq:
        termFreq[n_word] += 1
      else:
        termFreq[n_word] = 1
    print(n)
    n += 1





term_list = []
count_list = []
for term, count in termFreq.items():
    term_list.append(term)
    count_list.append(count)

s = pd.DataFrame({
 'Count':count_list,
 'List':term_list
 })

s = s.sort_values('Count', ascending=False)


print(s.shape)

s.to_csv('./effect_3.csv', index=False)
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • meg_

    2019/10/27 11:32

    実行環境を質問に追記してください。(OSとかPCのスペックとか)

    キャンセル

  • meg_

    2019/10/27 11:35 編集

    to_csv()はデータが大きいと時間がかかります。その前までの処理は遅いですか?具体的に今何分かかっていますか?

    キャンセル

  • tanukichipon

    2019/10/27 11:53

    コメントしていただきありがとうございます
    プロセッサ:2.7 GHz Intel Core i5
    メモリ:8 GB 1867 MHz DDR3
    OS: MacOS Mojava
    4700万行のうち1時間で600万行です。
    to_csvより前の処理 for wordArrayの箇所が遅いです。

    キャンセル

  • meg_

    2019/10/27 12:59

    ・皆さんの目に触れるように、回答は「質問に追記」してください。
    ・メモリに対してファイルサイズが大きいため時間がかかっているかと思われます。(マルチプロセス処理が可能であれば早くなる可能性はあります。メモリ不足なので効果があるかは分かりませんが。)

    キャンセル

回答 2

checkベストアンサー

+1

私の知っている範囲で最速のn-gramの関数と、それを使った処理を挙げておきます。

def ngram(seq, n):
    return zip(*map(islice, tee(seq, n), count(0), repeat(None)))

termFreq =  Counter(chain.from_iterable(ngram(line.rstrip().split(), 3) for line in open(infile, errors='ignore')))

100Mぐらいのファイルを作って計測してるソースと結果です。

  1. 質問のコード
  2. 質問のコードから冗長なループを解消したコード
  3. 上のコード

を比べてみました。

import random
from collections import Counter
from datetime import datetime
from itertools import chain, count, islice, repeat, tee

infile = 'a.csv'


def question_code():
    termFreq = {}

    for wordArray in open(infile, errors='ignore'):
        wordArray = wordArray.split()
        if wordArray == []:
            continue

        ngram_list = [(wordArray[i], wordArray[i + 1], wordArray[i + 2]) for i in range(len(wordArray) - 2)]

        for n_word in ngram_list:
            if n_word in termFreq:
                termFreq[n_word] += 1
            else:
                termFreq[n_word] = 1
    return termFreq


def remove_redundant_loop():
    termFreq = {}

    for line in open(infile, errors='ignore'):
        wordArray = line.rstrip().split()
        if wordArray == []:
            continue

        for i in range(len(wordArray) - 2):
            n_word = wordArray[i], wordArray[i + 1], wordArray[i + 2]
            if n_word in termFreq:
                termFreq[n_word] += 1
            else:
                termFreq[n_word] = 1
    return termFreq


def ngram(seq, n):
    return zip(*map(islice, tee(seq, n), count(0), repeat(None)))


def use_itertools():
    return Counter(chain.from_iterable(ngram(line.rstrip().split(), 3) for line in open(infile, errors='ignore')))


if __name__ == '__main__':
    with open(infile, 'w') as w:
        for i in range(100000):
            print(' '.join(map(str, [random.randint(0, 10) for j in range(0, 500)])), file=w)

    start = datetime.now()
    print(question_code()[('0', '0', '0')])
    print(datetime.now() - start)

    start = datetime.now()
    print(remove_redundant_loop()[('0', '0', '0')])
    print(datetime.now() - start)

    start = datetime.now()
    print(use_itertools()[('0', '0', '0')])
    print(datetime.now() - start)
37156
0:00:19.557652
37156
0:00:19.402147
37156
0:00:09.168290

冗長なループが実行速度上は問題にならないことが分かります。


実はコードなんかよりもずっとずっと大事なことがあります。
作成している辞書が実メモリを超えないかどうかです。
辞書が実メモリを超えるようならコードをどんなに工夫しても速くなりません。低頻度語を捨てるなどの割り切りや、分割統治が必要になる問題です。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/10/29 09:35

    本当に勉強になります。すごく助かりました。ありがとうざいます。

    キャンセル

+1

速度改善には、ループを並列処理させるのが手っ取り早いですが、環境によってできたりできなかったりしますので、アルゴリズム的に冗長な箇所をご指摘します。

ngram_list = ([(wordArray[i], wordArray[i+1], wordArray[i+2]) for i in range(len(wordArray)-2)])


    for n_word in ngram_list:
      if n_word in termFreq:
        termFreq[n_word] += 1
      else:
        termFreq[n_word] = 1

こちらですが、ngram_listを定義している内包表記のループと、そのあとのifでカウントしているループ、同時に処理できるはずです。
ngram_listをそもそも定義する必要がなく、直接
termFreqをカウントアップしていけると思います。

ただし、どの箇所が処理に時間が掛かっているのか、実際にtime関数やtqdmなどを使って計測してみて、その箇所について詰めていくのがよいとおもいます。

-----  
追記

for i in range(len(wordArray)-2)):
    n_word = wordArray[i], wordArray[i+1], wordArray[i+2]
    if n_word in termFreq:
        termFreq[n_word] += 1
    else:
        termFreq[n_word] = 1

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/10/27 12:55

    冗長と言っているのがどういう意味なのか、

    >ngram_listをそもそも定義する必要がなく、直接termFreqをカウントアップしていけると思います。
    というのがどういう意味でそれでどう速くなるのか、

    私にはわかりませんでした。

    キャンセル

  • 2019/10/27 13:01

    冗長というのは、同じような処理を何回も繰り返しているということです。
    ご提示のコードでは、
    (1) wordArrayからn_gramを生成(ngram_listの行)
    (2) ngram_listを参照してtermFreqをカウントアップ
    していますね。
    これは、ngram_listを生成する部分をカットして、
    (1) wordArrayを参照してtermFreqをカウントアップ
    とすれば、同様の処理が実現でき、ngram_listを生成する分の処理がカットされるため、
    速度が向上するという考えです。

    キャンセル

  • 2019/10/27 16:30

    教えていただきありがとうございます。やはり扱っているファイル自体が大きいためか、そこまで大きく速度改善はしませんでした。しかしながらコードの書き方等大変参考になりました。ありがとうございました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.34%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る