【Python】並列処理の高速化について

Question

### 前提・実現したいこと以前、[こちら](https://teratail.com/questions/137312)の記事で質問させていただいたのですが補足でご指摘いただいた通りに粒度を大きくしてみたのですが全然高速化できておりません、、、ですので、何処がボトルネックになっているかご指摘と改善出来るならアドバイス頂けるとありがたいです。個人的には、並列化した時の通信時間よりforの方が時間がかかっている感じがするのでこのような結果になったのではないかなぁと推測しております。 ### 元のソースコード ```Python3 import concurrent.futures import matplotlib.pyplot as plt import numpy as np import cv2, sys, os img = cv2.cvtColor(cv2.imread(sys.argv[1]), cv2.COLOR_BGR2RGB) useCPU = 1 def main(): """ メイン関数 """ try: useCPU = int( input("使用するCPUのコアを入力してください[ 1 ~ {0} ] : ".format(os.cpu_count())) ) except: useCPU = os.cpu_count() if useCPU > os.cpu_count(): useCPU = os.cpu_count() mulchProcess(useCPU=useCPU) plt.imshow(img) plt.show() def changeToGray( number: int, width: np.ndarray ): """ 並列化する処理 ( グレースケールに変換する ) @param number (int) : このプロセスの番号 @param width (np.ndarray) : 横１行の配列[ [R, G, B], ・・・・ ,[R, G, B] ] @return number (int) : このプロセスの番号 @return width (np.ndarray) : 引数で受け取った配列をグレースケールに変換した配列 """ for pixel in width: gray = int(pixel[0]*0.3) + int(pixel[1]*0.59) + int(pixel[2]*0.11) pixel[0] = gray pixel[1] = gray pixel[2] = gray return number, width def mulchProcess(useCPU: int): """ マルチコアでプロセスを生成して実行させる処理 @param useCPU (int) : 使用するCPUのコア数 """ with concurrent.futures.ProcessPoolExecutor(max_workers=useCPU) as executer: fs = [ executer.submit(changeToGray, i, width) for width, i in zip( img, range(len(img)) ) ] for future in concurrent.futures.as_completed(fs): line_number = future.result()[0] gray_width = future.result()[1] img[line_number] = gray_width if __name__ == '__main__': main() ``` ### 直したソースコード ```Python3 import concurrent.futures import matplotlib.pyplot as plt import numpy as np import cv2, sys, os img = cv2.cvtColor(cv2.imread(sys.argv[1]), cv2.COLOR_BGR2RGB) useCPU = 1 step = 1 def main(): """ メイン関数 """ try: useCPU = int( input("使用するCPUのコアを入力してください[ 1 ~ {0} ] : ".format(os.cpu_count())) ) except: useCPU = os.cpu_count() if useCPU > os.cpu_count(): useCPU = os.cpu_count() step = int( len(img) / useCPU ) mulchProcess(useCPU=useCPU, step= step) plt.imshow(img) plt.show() def changeToGray( number: int, length: int ): """ 並列化する処理 @param number (int) : 画像の処理対象範囲の先頭の添字 @param length (int) : 対象範囲の長さ @return number (int) : 画像の処理対象範囲の先頭の添字 @return part_height (int) : 処理後の画像の配列 """ endPioint = number + length if number + length < len(img) else len(img) - 1 part_height = img[ number : endPioint-1 ] for width in part_height: for pixel in width: gray = int(pixel[0]*0.3) + int(pixel[1]*0.59) + int(pixel[2]*0.11) pixel[0] = gray pixel[1] = gray pixel[2] = gray return number, part_height def mulchProcess(useCPU: int, step: int): """ マルチコアでプロセスを生成して実行させる処理 @param useCPU (int) : 使用するCPUのコア数 @param step (int) : 画像の高さをコア数で割った数 """ index_list = [ i for i in range(0, len(img), step) if i < len(img) ] with concurrent.futures.ProcessPoolExecutor(max_workers=useCPU) as executer: fs = [ executer.submit(changeToGray, i, step) for i in index_list ] for future in concurrent.futures.as_completed(fs): line_number = future.result()[0] part_height = future.result()[1] for i, height in zip( range(line_number, line_number+len(part_height)), part_height ): img[i] = height if __name__ == '__main__': main() ``` ### 試したこと横1列ごとのピクセルで処理していたのを「横*（高さ/使用するコア数）」ごとに処理をさせるようにして通信時間を使用するコア数に削減させたつもりです.... ### 補足情報（FW/ツールのバージョンなど） [実行環境] MacBook Pro (15-inch, 2016) プロセッサ : 2.6 GHz Intel Core i7 ( 4コア8スレッド ) メモリ : 16 GB 2133 MHz LPDDR3 Python 3.6.4 [実行時間] 使用画像 : 5000px*5025px (15.1MB) 修正前のコード : 44.79758310317993秒修正後のコード : 45.401297092437744秒

Accepted Answer

基本的に numpy の配列に対する演算は numpy で完結させたほうが速いです。

提示の「直したソースコード」は動かないので**「元のソースコード」**で、
`changeToGray` を numpy で完結する処理に変更した例を示します。

```python
def changeToGray( number: int, width: np.ndarray ):
    """
    並列化する処理 ( グレースケールに変換する )
    @param  number (int)       : このプロセスの番号
    @param  width (np.ndarray) : 横１行の配列[ [R, G, B], ・・・・ ,[R, G, B] ]
    @return number (int)       : このプロセスの番号
    @return width (np.ndarray) : 引数で受け取った配列をグレースケールに変換した配列
    """
    return number, np.tile((width * [0.3, 0.59, 0.11]).astype(np.int).sum(axis=1), (3, 1)).T
```

環境はだいぶ違いますが、Windows 10 (Core i5)、4 コア(論理プロセッサの最大)で比較したところ
5472x3648 ピクセルの画像は、約 130 秒が 5 秒に、
1920x1200 ピクセルの画像は、約 9 秒が 2 秒に短縮しました。

---
**[以降追記]**
まずは、NumPy についてです。

[NumPy - Wikipedia](https://ja.wikipedia.org/wiki/NumPy#%E7%9B%AE%E7%9A%84)
> 目的
> Pythonは動的型付け言語であるため、プログラムを柔軟に記述できる一方で、純粋にPythonのみを使って数値計算を行うと、ほとんどの場合C言語やJavaなどの静的型付き言語で書いたコードに比べて大幅に計算時間がかかる。そこでNumPyは、Pythonに対して型付きの多次元配列オブジェクト (numpy.ndarray) と、その配列に対する多数の演算関数や操作関数を提供することにより、この問題を解決しようとしている。NumPyの内部はC言語 (およびFortran)によって実装されているため非常に高速に動作する。したがって、目的の処理を、大きな多次元配列（ベクトル・行列など）に対する演算として記述できれば（ベクトル化できれば）、計算時間の大半はPythonではなくC言語によるネイティブコードで実行されるようになり大幅に高速化する。

したがって、以下のように配列の 1 要素ごとに Python で演算を行っていたのでは NumPy を活かすことができません。

```Python
def changeToGray( number: int, width: np.ndarray ):
    for pixel in width:
        gray = int(pixel[0]*0.3) + int(pixel[1]*0.59) + int(pixel[2]*0.11)
        pixel[0] = gray
        pixel[1] = gray
        pixel[2] = gray
    return number, width
```

`np.tile((width * [0.3, 0.59, 0.11]).astype(np.int).sum(axis=1), (3, 1)).T` は、
“配列に対する多数の演算関数や操作関数”を使用するように置き換えたものです。

NumPy では `+` や `*` などの演算子は、配列同士の演算ができるように定義されています。
以下のように、配列 `a` と `b` に対して、`a + b` を行った結果は、同じ位置の要素同士を加算したものになります。

```Python
>>> a = np.arange(6).reshape(2, 3)
>>> a
array([[0, 1, 2],
       [3, 4, 5]])

>>> b = np.ones((2, 3))
>>> b
array([[1., 1., 1.],
       [1., 1., 1.]])

>>> a + b
array([[1., 2., 3.],
       [4., 5., 6.]])
```

また、「ブロードキャスト」といって、長さが異なる配列の演算は、不足している要素を、ルールにしたがって自動的に補完してくれます。詳しくは「NumPy ブロードキャスト」などで検索してください。

```Python
>>> c = np.array([3, 5, 7])
>>> c
array([3, 5, 7])

>>> a + c
array([[ 3,  6,  9],
       [ 6,  9, 12]])

>>> d = np.array([5])
>>> d
array([5])

>>> a + d
array([[ 5,  6,  7],
       [ 8,  9, 10]])
```

つまり、`width * [0.3, 0.59, 0.11]` は、以下の処理と等価です。

```Python
for pixel in width:
    gray = pixel[0]*0.3 + pixel[1]*0.59 + pixel[2]*0.11
```

この結果に対して、`.astype(np.int)` は配列の `int` 変換を、`.sum(axis=1)` は 1 次元の要素同士の合計(つまりR+G+B)を求めています。
そして、その合計を `np.tile` によって、元の長さに戻しています。

```Python
>>> e = np.tile(np.arange(5), (3, 1))
>>> e
array([[0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4]])
```

ただし、このままだと、0次元目と1次元目が入れ替わってしまっているため、`.T` で転置しています。

```Python
>>> e.T
array([[0, 0, 0],
       [1, 1, 1],
       [2, 2, 2],
       [3, 3, 3],
       [4, 4, 4]])
```

Answer

測定したい時間は以下のものです。

```python
def changeToGray( number: int, width: np.ndarray ):
    ココから
    本来のコード
    ココまで
    return number, part_height
```

---

普通に並列処理させたら、普通に速くなりました。

「直したソースコード」が誤っていますが、実行すべきコードを実行できていますか？

---

 私の手元では以下のコードのuseCPUを変えると正常にスケールします。

```python
import concurrent.futures
import numpy as np
import time

img = np.ones(shape=(500,5000,3))

def main():
    useCPU = 4
    step = int(len(img) / useCPU )
    mulchProcess(useCPU=useCPU, step=step)

def changeToGray(number: int, length: int):
    s = time.time()
    endPioint = number + length  if number + length < len(img)  else  len(img) - 1
    part_height = img[number:endPioint-1]
    for width in part_height:
        for pixel in width:
            gray = int(pixel[0]*0.3) + int(pixel[1]*0.59) + int(pixel[2]*0.11)
            pixel[0] = gray
            pixel[1] = gray
            pixel[2] = gray
    t = time.time() - s
    return number, part_height, t

def mulchProcess(useCPU: int, step: int):
    index_list = [i for i in range(0, len(img), step)]
    with concurrent.futures.ProcessPoolExecutor(max_workers=useCPU) as executer:
        fs = [executer.submit(changeToGray, i, step) for i in index_list]
        for future in concurrent.futures.as_completed(fs):
            line_number = future.result()[0]
            part_height  = future.result()[1]
            t = future.result()[2]
            print(t)
            for i, height in zip(range(line_number, line_number+len(part_height)), part_height):
                img[i] = height

s = time.time()
main()
print(time.time()-s)
```

時間は以下のようになります。
手元のPCは4coreなので、8個使おうとしても一度に4つずつしか実行できません。
それらがキューに乗せられて順番に実行されるわけではなく、スイッチしながら実行されるので、プロセスあたり2倍の時間がかかり、結局全体の時間は同じになります。
むしろスイッチした分だけオーバーヘッドがあって全体の実行時間が長くなっています。
```
useCPU = 1
3.6020491123199463
total 4.26886773109436

useCPU = 2
1.7662358283996582
1.7804999351501465
total 2.166551113128662

useCPU = 4
0.9876649379730225
0.9972729682922363
1.0097663402557373
1.0141608715057373
total 1.2486088275909424

useCPU = 8
0.9724259376525879
0.9717621803283691
0.973222017288208
0.97617506980896
0.9814469814300537
0.9806389808654785
0.9841761589050293
0.9821760654449463
0.015022039413452148
total 1.2429370880126953
```

Answer

> 何処がボトルネックになっているか

a,`numpy`はループでピクセル単位に処理を行うと**ものすごーく時間**がかかるので。
あまりテストできてませんが。

[How can I convert an RGB image into grayscale in Python?](https://stackoverflow.com/questions/12201577/how-can-i-convert-an-rgb-image-into-grayscale-in-python)を参考に。

```Python
from time import perf_counter

def changeToGray_beta( number: int, length :int):
    st_time = perf_counter()
    endPioint = number + length  if number + length < len(img)  else  len(img) - 1
    part_height = img[ number : endPioint-1 ]
    gray = np.ceil(np.dot(part_height[..., :3], [0.3, 0.59, 0.11]))
    # 1ch => 3ch
    part_height = np.stack((gray,) * 3, -1)
    # 戻り値に実行時間を追加
    return number, part_height, perf_counter() - st_time
```

```diff
-for future in concurrent.futures.as_completed(fs):
-    line_number = future.result()[0]
-    part_height  = future.result()[1]
+for future in concurrent.futures.as_completed(fs):
+    line_number, part_height, exe_time = future.result()
+    print(exe_time)
```

**※numpyマニアな方なツッコミ待ちです。**

b, あとはグレースケール変換部分を`cv2.cvtColor`を使ったこのような形にでも。
```Python
gray = cv2.cvtColor(part_height, cv2.COLOR_RGB2GRAY)
```

---

あと思いつく点としては、`changeToGray`の処理で戻り値として3次元(`RGB`)データを返していますが。
グレースケールデータは1次元で十分なので`as_completed`呼び出し側で一部の処理を行えば返す必要も無い気がします。
これに関しては受け渡しする`pickle`のデータ量と`as_completed`呼び出し側の`CPU`時間のトレードオフになるのではないかと、プロファイリングを複数回採ってみた方がよいと思います。

---
テスト中に気づいたのですが、質問文の元コードだと白色のグレースケール値が`254`になります。

こんな感じのハッシュ関数を作ってテストコードに入れておくのをお勧め致します。
```Python
def image_hash(img):
    from hashlib import sha384
    x = np.ascontiguousarray(img, dtype=np.uint8)
    print(sha384(x).hexdigest())
```
◇参考情報
[Fast way to Hash Numpy objects for Caching](https://stackoverflow.com/questions/5386694/fast-way-to-hash-numpy-objects-for-caching/)

前提・実現したいこと

元のソースコード

直したソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問