python multiprocessingの処理後のresult.get()の速度をあげたい

pythonでビッグデータを集計処理する際にmultiprocessingを使用してます。
集計自体は早くなるのですが、resultをgetしていかないと結果がわかりません。
しかしこのgetの処理が遅く、multiprocessingを使わない方が早い場合もあります。

どのように利用したら、multiprocessingの恩恵を受け取れるでしょうか？
getで取得した結果はdataframeです。

python
1r = Pool.apply_async(関数, 引数)
2lists.append(r)
3
4#下記の処理が重い
5for r in lists:
6  result.append(r.get())
7

リスト内表記

python
1[result.append(r.get()) for r in lists]

取得した時点でget()

python
1r = Pool.apply_async(関数, 引数)
2lists.append(r.get())

エラーは発生しませんでしたが、どちらも通常より遅い結果となりました。
（スコアは取ってません。）

python 3.6.2
multiprocessing 0.1.0
pandas 0.20.3

2020/04/08 03:05

result.get() はそのスレッドで実行している処理が終了して結果が得られるまで待機する関数なので、「集計は終わっていて、結果を取得するのに時間がかかる」ということではなく、「集計処理に時間がかかっている」のだと思います。

行動規範の内容に同意します

回答1件

前提として、事情はtiitoiさんの修正依頼欄でのコメントのとおりです。

result.get() はそのスレッドで実行している処理が終了して結果が得られるまで待機する関数なので、「集計は終わっていて、結果を取得するのに時間がかかる」ということではなく、「集計処理に時間がかかっている」のだと思います。

要するに、別プロセスに処理を送り出すことはできるし、待っている間は他のことだってできるけど、結果を受け取るのは別プロセスが処理を終えるのを待たないといけないという至極当然の話です。

multiprocessingでの高速化にはけっこう難しい面がいろいろあり、気楽にはいきません。

オーバーヘッドがでかいので、少なくとも数秒、できれば10秒以上かかる処理を並列化してください。それ未満ではメリットは得られません。
コア数の少ないマシンではさほどの恩恵は得られません。4コア以上をおすすめします。
メモリ量の少ないマシンだと、メモリを半分以上食うような大きいデータでプロセス並列化を行うのはそもそも無理筋だったりします。16GB以上をおすすめします。
multiprocessingでは新しいプロセスを作るときに、その方法を指定できます。spawn, fork, forkserverの三通りがありますが、実は速度差があります。試してみてください（私が前やったときはfork最速という結果になっていましたが、状況依存ですからチューニングは自分で試すしかありません）。
multiprocessingではプロセス間通信にpickleを使って必要なデータをシリアライズしていますが、これが泣きたくなるほど遅かったりします。送るデータ量を減らすことができればマシになります（処理に不要な列を付けて送っていたら予めdropしておくとか）

投稿2020/04/09 18:06