python 処理速度を上げるためにこのコードのどこを改善すれば良いでしょうか？

Question

17GBの分かち書き済txtファイルを読み込み、n_gram処理をしているファイルです。処理が非常に遅く心配です。以下のコードを処理速度を上げるために改善できる箇所はあるでしょうか？
教えていただけるととても嬉しいです。
```Python
import pandas as pd
import sys
import csv
from collections import Counter

cmd, infile = sys.argv
termFreq = {}

n = 0
for wordArray in open(infile, errors='ignore'):
    wordArray = wordArray.split()
    if wordArray == []:
        continue

    ngram_list = ([(wordArray[i], wordArray[i+1], wordArray[i+2]) for i in range(len(wordArray)-2)])
    

    for n_word in ngram_list:
      if n_word in termFreq:
        termFreq[n_word] += 1
      else:
        termFreq[n_word] = 1
    print(n)
    n += 1





term_list = []
count_list = []
for term, count in termFreq.items():
    term_list.append(term)
    count_list.append(count)

s = pd.DataFrame({
 'Count':count_list,
 'List':term_list
 })

s = s.sort_values('Count', ascending=False)


print(s.shape)

s.to_csv('./effect_3.csv', index=False)

```

Accepted Answer

私の知っている範囲で最速のn-gramの関数と、それを使った処理を挙げておきます。

```python
def ngram(seq, n):
    return zip(*map(islice, tee(seq, n), count(0), repeat(None)))

termFreq =  Counter(chain.from_iterable(ngram(line.rstrip().split(), 3) for line in open(infile, errors='ignore')))
```

----

100Mぐらいのファイルを作って計測してるソースと結果です。
1. 質問のコード
1. 質問のコードから冗長なループを解消したコード
1. 上のコード

を比べてみました。

```python
import random
from collections import Counter
from datetime import datetime
from itertools import chain, count, islice, repeat, tee

infile = 'a.csv'


def question_code():
    termFreq = {}

    for wordArray in open(infile, errors='ignore'):
        wordArray = wordArray.split()
        if wordArray == []:
            continue

        ngram_list = [(wordArray[i], wordArray[i + 1], wordArray[i + 2]) for i in range(len(wordArray) - 2)]

        for n_word in ngram_list:
            if n_word in termFreq:
                termFreq[n_word] += 1
            else:
                termFreq[n_word] = 1
    return termFreq


def remove_redundant_loop():
    termFreq = {}

    for line in open(infile, errors='ignore'):
        wordArray = line.rstrip().split()
        if wordArray == []:
            continue

        for i in range(len(wordArray) - 2):
            n_word = wordArray[i], wordArray[i + 1], wordArray[i + 2]
            if n_word in termFreq:
                termFreq[n_word] += 1
            else:
                termFreq[n_word] = 1
    return termFreq


def ngram(seq, n):
    return zip(*map(islice, tee(seq, n), count(0), repeat(None)))


def use_itertools():
    return Counter(chain.from_iterable(ngram(line.rstrip().split(), 3) for line in open(infile, errors='ignore')))


if __name__ == '__main__':
    with open(infile, 'w') as w:
        for i in range(100000):
            print(' '.join(map(str, [random.randint(0, 10) for j in range(0, 500)])), file=w)

    start = datetime.now()
    print(question_code()[('0', '0', '0')])
    print(datetime.now() - start)

    start = datetime.now()
    print(remove_redundant_loop()[('0', '0', '0')])
    print(datetime.now() - start)

    start = datetime.now()
    print(use_itertools()[('0', '0', '0')])
    print(datetime.now() - start)
```

```plain
37156
0:00:19.557652
37156
0:00:19.402147
37156
0:00:09.168290
```

冗長なループが実行速度上は問題にならないことが分かります。

----

実はコードなんかよりもずっとずっと大事なことがあります。
作成している辞書が**実メモリを超えないか**どうかです。
辞書が実メモリを超えるようならコードをどんなに工夫しても速くなりません。低頻度語を捨てるなどの割り切りや、分割統治が必要になる問題です。

Answer

速度改善には、ループを並列処理させるのが手っ取り早いですが、環境によってできたりできなかったりしますので、アルゴリズム的に冗長な箇所をご指摘します。

```python
ngram_list = ([(wordArray[i], wordArray[i+1], wordArray[i+2]) for i in range(len(wordArray)-2)])


    for n_word in ngram_list:
      if n_word in termFreq:
        termFreq[n_word] += 1
      else:
        termFreq[n_word] = 1
```

こちらですが、ngram_listを定義している内包表記のループと、そのあとのifでカウントしているループ、同時に処理できるはずです。
ngram_listをそもそも定義する必要がなく、直接
termFreqをカウントアップしていけると思います。

ただし、どの箇所が処理に時間が掛かっているのか、実際にtime関数やtqdmなどを使って計測してみて、その箇所について詰めていくのがよいとおもいます。


-----  
追記

```python
for i in range(len(wordArray)-2)):
    n_word = wordArray[i], wordArray[i+1], wordArray[i+2]
    if n_word in termFreq:
        termFreq[n_word] += 1
    else:
        termFreq[n_word] = 1
```

関連した質問