pythonでtfidfを並列化

Question

pythonでtfidfの処理に時間がかかるので、並列処理をしていますしかし、速度が並列化していない処理よりも5秒ほど遅くなるので（並列化していない時は15秒ほど） cProfileコマンドを用いたところ普通に実行した際にはでないエラーのようなものがでています ```python import nltk import numpy as np import json import time from multiprocessing import Pool import sys def subcalc(word, collection): subdoc = [] lists = [] wo=[] for term in set(word): if(collection.tf_idf(term, word) > 0): wo.append([term,collection.tf_idf(term, word)]) #ここも上のサイトにのってる wo.sort(key=lambda x:x[1]) #keyに無名関数lambdaをいれてる woの1番目の要素(WO(1,2)だったら”2”)でソート wo.reverse() try: slice1 = np.array(wo[:20]) #先頭の文字から終了インデックスまでが抽出 lists = slice1[:,0] #[:]は戦闘から終了のインデックスまで抽出と、slice1の0番目を格納 subdoc.append(list(lists)) #listsが文字列だから、リストに格納 del wo except: print(wo) return subdoc def tfidf(): t1 = time.time() doc0 = [] doc = [] word0 = [] word = [] f = open("/Users/uuu/Desktop/Dropbox/prg/dataset/word0_a.txt") #/Users/uuu/Desktop/Dropbox/prg/dataset for row in f: word0.append(row.split("][")) f.close() for i in word0: #word0[0] #普通の時(形態素解析したテキストが改行されてない時) #word0 #改行されてる時 word.append(str(i).replace("[","").replace("]","").replace(",","").replace("'","").replace("\"","").split()) #word.pop() ttt = time.time() p = Pool() collection = nltk.TextCollection(word) #サイトにのっていた words = [(i, collection) for i in word] doc = p.starmap(subcalc, words) #複数コアによる実行 t3 = time.time() print('processing time2(終わり): ' + str(t3 - ttt) + '(sec)') if __name__ == "__main__": tfidf() ----------------------------------------------------------------- cProfile 実行結果（エラー部分のみ） Traceback (most recent call last): File "C:\Users\uuu\AppData\Local\conda\conda\envs\anaconda\lib\runpy.py", line 193, in _run_module_as_main "__main__", mod_spec) File "C:\Users\uuu\AppData\Local\conda\conda\envs\anaconda\lib\runpy.py", line 85, in _run_code exec(code, run_globals) File "C:\Users\uuu\AppData\Local\conda\conda\envs\anaconda\lib\cProfile.py", line 160, in main() File "C:\Users\uuu\AppData\Local\conda\conda\envs\anaconda\lib\cProfile.py", line 153, in main runctx(code, globs, None, options.outfile, options.sort) File "C:\Users\uuu\AppData\Local\conda\conda\envs\anaconda\lib\cProfile.py", line 20, in runctx filename, sort) File "C:\Users\uuu\AppData\Local\conda\conda\envs\anaconda\lib\profile.py", line 64, in runctx prof.runctx(statement, globals, locals) File "C:\Users\uuu\AppData\Local\conda\conda\envs\anaconda\lib\cProfile.py", line 100, in runctx exec(cmd, globals, locals) File "tfidf(speedy).py", line 80, in tfidf() File "tfidf(speedy).py", line 66, in tfidf doc = p.starmap(subcalc, words) #複数コアによる実行 File "C:\Users\uuu\AppData\Local\conda\conda\envs\anaconda\lib\multiprocessing\pool.py", line 268, in starmap return self._map_async(func, iterable, starmapstar, chunksize).get() File "C:\Users\uuu\AppData\Local\conda\conda\envs\anaconda\lib\multiprocessing\pool.py", line 608, in get raise self._value File "C:\Users\uuu\AppData\Local\conda\conda\envs\anaconda\lib\multiprocessing\pool.py", line 385, in _handle_tasks put(task) File "C:\Users\uuu\AppData\Local\conda\conda\envs\anaconda\lib\multiprocessing\connection.py", line 206, in send self._send_bytes(_ForkingPickler.dumps(obj)) File "C:\Users\uuu\AppData\Local\conda\conda\envs\anaconda\lib\multiprocessing\reduction.py", line 51, in dumps cls(buf, protocol).dump(obj) _pickle.PicklingError: Can't pickle : attribute lookup subcalc on __main__ failed ``` pickle化ができませんというエラーのようなのですがこの部分に速度が速くならない要因があるのでしょうかあと、対処法があれば教えていただきたいです

Accepted Answer

どうやら ``multiprocessing``を使ってるコードに対して、コマンドラインから``cProfile``は使用できないみたいですね。

とりあえず、コードに

```Python
if __name__ == "__main__":
    import cProfile
    cProfile.run('tfidf()')
```

のように ``cProfile`` を埋め込んでみたください。

Answer

multiprocessingのworkerに渡す関数にpickle化不可能なオブジェクトを渡すことはできません。
https://docs.python.jp/3/library/multiprocessing.html

cProfileをつけた際に発生するエラーなら、適切に計測できていなさそうです。
(例えば、クロージャなどはpickle化できないのですが。そのような値に変換されてmultiprocessingのworkerに渡されてしまっているかもしれません)

関連した質問