cythonでfor文を速くしたい

以下のようなコードがあります

python
1import nltk
2
3def tfidf(word):
4    collection = nltk.TextCollection(word) #サイトにのっていた
5    doc = []
6    cdef float a
7    cdef str term
8    for do in word:
9          wo=[]
10          for term in set(do):
11              a = collection.tf_idf(term, do)
12              if(a > 0):
13                  wo.append([term,a]) #ここも上のサイトにのってる
14                  #print(wo)
15          wo.sort(key=lambda x:x[1]) #keyに無名関数lambdaをいれてる woの1番目の要素(WO(1,2)だったら”2”)でソート
16          wo.reverse()
17          #print(wo)
18          slice1 = [i[0] for i in wo] #woの単語のみを抽出
19          lists = slice1[:20] #20番までにへらす
20          doc.append(list(lists)) #listsが文字列だから、リストに格納
21          del wo
22
23    return doc

wordは
[["aa"],["bb"],["af"],["df"],["fd"]]
のような文字列のリストです

現状このようなコードでcython化させているのですが
全然はやくなりません
そもそもほかの部分に冗長があったりするのかもしれませんが
型定義などで速くする方法はありますか？
この処理が遅くしているなどの指摘でもかまわないので
よろしくお願いします

修正依頼をうけて-----------------
処理時間の変化はやる時々でかわるのですが
それこそ誤差程度で、1秒以内で速くなったり、遅くなったりを
繰り返しています

退会済みユーザー

2017/07/27 03:39

>現状このようなコードでcython化させているのですが全然はやくなりません　私にはできませんが、cython化前後で時間がどれくらい変わったか（変わっていないか）の数字があると、わかる人には答えがわかるかもしれません。

行動規範の内容に同意します

回答4件

ベストアンサー

一度プロファイラーなどを使用して、現状のコードを解析してみることをお勧めします。

参考までに、私の環境で(Cython版)tfidf関数をcProfileで解析してみたところ、下記のような結果になっております。（5MByteくらいのデータを使用）

6307418 function calls in 10.835 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000   10.835   10.835 {built-in method builtins.exec}
        1    0.038    0.038   10.835   10.835 <string>:1(<module>)
        1    0.298    0.298   10.797   10.797 {tfidf.tfidf}
   674820    0.528    0.000   10.026    0.000 text.py:581(tf_idf)
   674820    0.220    0.000    8.836    0.000 text.py:568(idf)
      538    8.514    0.016    8.514    0.016 text.py:575(<listcomp>)
   674820    0.255    0.000    0.662    0.000 text.py:564(tf)
        1    0.001    0.001    0.472    0.472 text.py:556(__init__)
        1    0.044    0.044    0.472    0.472 text.py:289(__init__)
   674820    0.377    0.000    0.377    0.000 {method 'count' of 'list' objects}
   (略)

この結果を見る限りは、tfidf関数全体(tfidf.tfidf) でかかった時間(cumtime) 10.797秒に対して、nltkのtf_idf()内で費やした時間は 10.026秒となっており、この外部ライブラリでの処理時間がほぼ支配的になっております。

ですので、いくらCythonの型を最適化してtfidf関数内のループを速くしても、それほど効果がないきがします。

投稿2017/07/27 12:13