【Python】ProcessPoolExecutor について

Question

### 前提・実現したいこと

現在、Pythonで画像のグレースケールに変換する処理を並列で実行しようとしています。

そこでconcurrent.futuresのProcessPoolExecutorでmax_workerに5コア以上入れた場合2〜4コアと比べてあまり高速化されてないでのですが、原因がわからず困っております。

他のサイトを見てみても5コア以上はそこまで高速化できてないようですが、それがなぜかまでは説明されておりませんでした、、、

なので、原因ともしうまく高速化出来るのであれば教えて頂きたいです。
また、同じ要領でThredPoolExecutorを利用した場合スレッドの本数を2〜40にしてもシングルスレッドの実行結果と変わらなかったのですがなぜマルチスレッドでは全く高速化出来なかったのかも合わせて質問さて頂きたいです。

今回初めて、マルチプロセスやマルチスレッドを触るので理解が甘いのと処理がおかしいところもあるかもしれないです。。。


### 該当のソースコード

```Python3
"""
並列で画像をモノクロにする
画像をコマンドライン引数で渡しておく
例）python ParallelMono.py 画像.pngとか
事前に
  pip install opencv-python
  pip install matplotlib
  pip install futures
をしておく"""

# スレッドで並列化を利用する為に必要なモジュール
import concurrent.futures

# その他各ライブラリをインポート
import matplotlib.pyplot as plt
import numpy as np
import cv2
import common
import sys
import os
import time

# コンソールをクリア
os.system('clear')

# コマンドライン引数から画像を読み込む
img = common.getRGBImage( sys.argv[1] )

# 使用数を初期化
useThread = 1
useCPU = 1

def main():
    # スレッドかCPUか選ぶ
    msg = "マルチスレッドかマルチプロセスどちらにしますか？
"\
          "[1:マルチスレッド 2:マルチプロセス] : "
    multchType = int( input(msg.format(os.cpu_count())) )
    # 使用する数を選択
    if multchType == 1:
        useThread = int( input("使用するスレッドの数を入力してください : ") )
        if useThread > 1:
            mulchThread(useThread= useThread)
            plt.imshow(img)
            plt.show()
        else:
            print("0以下なので終了")
    elif multchType == 2:
        useCPU = int( input("使用するCPUのコアを入力してください[ 1 ~ {0} ] : ".format(os.cpu_count())) )
        if useCPU >= 1 and useCPU <= os.cpu_count():
            mulchProcess(useCPU= useCPU)
            plt.imshow(img)
            plt.show()
        else:
            print("選択の範囲外なので終了")
    else:
        print("どちらでもないので終了")

def changeToGray( number: int, width: np.ndarray ):
    """
    並列化する処理
    @param  number (int)       : このプロセスの番号
    @param  width (np.ndarray) : 横１行の配列[ [R, G, B], ・・・・ ,[R, G, B] ]
    @return number (int)       : このプロセスの番号
    @return width (np.ndarray) : 引数で受け取った配列をグレースケールに変換した配列
    """
    for pixel in width:
        # グレースケールにするする処理
        gray = int(pixel[0]*0.3) + int(pixel[1]*0.59) + int(pixel[2]*0.11)
        pixel[0] = gray # Red  
        pixel[1] = gray # Green
        pixel[2] = gray # Blue
    return number, width

def mulchProcess(useCPU: int):
    """
    マルチコアでプロセスを生成して実行させる処理
    @param  useCPU (int)  : 使用するCPUのコア数
    """
    print("")
    start = time.time()
    count = 0
    print("{0}コアで処理を開始します!!".format(useCPU))
    with concurrent.futures.ProcessPoolExecutor(max_workers=useCPU) as executer:
        fs = [ executer.submit(changeToGray, i, width) for width, i in zip( img, range(len(img)) ) ]
        for future in concurrent.futures.as_completed(fs):
            line_number = future.result()[0]
            gray_width  = future.result()[1]
            img[line_number] = gray_width
            count += 1
            common.progressBar(count, len(img))
    print("
終了しました!!")
    print("かかった時間:{0}秒".format( time.time()-start ))

def mulchThread(useThread: int):
    """
    スレッドを生成して実行させる処理
    @param  useThread (int)  : 使用するスレッドの数
    """
    print("")
    start = time.time()
    count = 0
    print("{0}スレッドで処理を開始します!!".format(useThread))
    with concurrent.futures.ThreadPoolExecutor(max_workers=useThread) as executer:
        fs = [ executer.submit(changeToGray, i, width) for width, i in zip( img, range(len(img)) ) ]
        for future in concurrent.futures.as_completed(fs):
            line_number = future.result()[0]
            gray_width  = future.result()[1]
            img[line_number] = gray_width
            count += 1
            common.progressBar(count, len(img))
    print("
終了しました!!")
    print("かかった時間:{0}秒".format( time.time()-start ))

if __name__ == '__main__':
    main()
```

### 試したこと

色々、コアの数を変更したりスレッドを利用したりしてみましたがなかなか成果か現れません。


### 補足情報（FW/ツールのバージョンなど）

[実行環境]
MacBook Pro (15-inch, 2016)
プロセッサ : 2.6 GHz Intel Core i7 ( 4コア8スレッド )
メモリ : 16 GB 2133 MHz LPDDR3
Python 3.6.4

[実行結果]
1コア：93.36475276947021秒        100%
2コア：45.95268726348877秒　　約203%
3コア：32.04803204536438秒　　約291%
4コア：25.691081047058105秒　 約363%
5コア：25.711262941360474秒    約363%
6コア：24.469857692718506秒    約381%
7コア：23.86842966079712秒      約391%
8コア：23.69063401222229秒      約394%

Accepted Answer

本質的には、マルチプロセス処理にはかなりオーバーヘッドがあります。特にpythonの実装だと、プロセス間通信にpickleを使っていますし。ですから、まずそこで限界があります。

今回のケースでは更に、CPUのコア数の限界があります。8コアと仰っていますが、恐らく4コア8スレッドのハイパースレッディング機能のあるCPUではないかと思います。

あくまでも物理的には4コアですから、4（ハードウェア）スレッド以上使っても（処理内容にもよりますが）あまり高速化されないのが普通です。

参考：
[ハイパースレッディング (Hyper-Threading)とは｜「分かりそう」で「分からない」でも「分かった」気になれるIT用語辞典](https://wa3.i-3-i.info/word12754.html)
[同時マルチスレッディング - Wikipedia](https://ja.wikipedia.org/wiki/%E5%90%8C%E6%99%82%E3%83%9E%E3%83%AB%E3%83%81%E3%82%B9%E3%83%AC%E3%83%83%E3%83%87%E3%82%A3%E3%83%B3%E3%82%B0)
[ASCII.jp：Core iシリーズにも使われる「SMT」の利点と欠点 (1/4)｜ロードマップでわかる！当世プロセッサー事情](http://ascii.jp/elem/000/000/560/560386/)

---

マルチスレッドで高速化出来ない件に関しては、GILで調べるとわかります。

結論だけ書くと、基本的に、そのマルチスレッドは演算を高速化する目的には使えません。

参考：
[karky7のブログ: PythonのGILについて簡単に調べてみました](https://blog.karky7.com/2014/12/pythongil.html)
[グローバルインタプリタロック - Wikipedia](https://ja.wikipedia.org/wiki/%E3%82%B0%E3%83%AD%E3%83%BC%E3%83%90%E3%83%AB%E3%82%A4%E3%83%B3%E3%82%BF%E3%83%97%E3%83%AA%E3%82%BF%E3%83%AD%E3%83%83%E3%82%AF)

Answer

（直接的には hayataka2049 さん回答にお任せしつつ、補足的な情報をいくつかご参考までに）

> 現在、Pythonで画像のグレースケールに変換する処理を並列で実行しようとしています。

画像処理を並列化する場合、質問文中のようにPixelLine単位で各プロセッサ／コアに振り分けるよりも、可能な限り画面領域単位とするほうが好ましいです。例えば高さ1000 Pixelの画像を4コアで処理する場合、250 PixelLineづつ4個コアに振り分ける方式の方がベターです。

> 他のサイトを見てみても5コア以上はそこまで高速化できてないようですが、それがなぜかまでは説明されておりませんでした、、、 

どのような並列処理手法でも、必ず並列化によるオーバーヘッド（＝追加の管理コスト）が発生します。並列化タスクの **粒度(grain)** を適切にコントロールすることが重要です。マルチプロセスやマルチスレッドは比較的オーバーヘッドが大きい並列化技法のため、出来るかぎり粗粒度(coarse grain)なタスク分割としておいたほうが無難です。

また計測データを見る限り、8コアまでは僅かですが高速化を達成できているようです。（期待するデータではないかもしれませんが、）論理8個コア環境下では正しく並列処理を実現できていると思います。おそらく、並列度を9以上に増やすといずれ処理速度が低下していくと思います。

並列処理による処理の高速化は、必ず「[アムダールの法則(Amdahl's law)](https://ja.wikipedia.org/wiki/%E3%82%A2%E3%83%A0%E3%83%80%E3%83%BC%E3%83%AB%E3%81%AE%E6%B3%95%E5%89%87)」に従います。並列処理をどの程度までがんばるべきか、性能限界を大まかに見積もる際に参考にされてください。

----
> あくまでも物理的には4コアですから、4（ハードウェア）スレッド以上使っても（処理内容にもよりますが）あまり高速化されないのが普通です。

個人的な経験則ですが、近年のIntel Coreアーキテクチャのハイパースレッディングは、昔のソレに比べてかなり実効性能向上が改善されている印象です。一時期はハイパースレッディングを無効化した方が総合性能が出たこともありましたが、近年では素直にハイパースレッディング有効で論理コア数まで並列化したほうが良いケースが大半と思います。（最終的にはケース・バイ・ケースですから、今回のように実測するべきですね）

> マルチスレッドで高速化出来ない件に関しては、GILで調べるとわかります。
> 結論だけ書くと、基本的に、そのマルチスレッドは演算を高速化する目的には使えません。

hayataka2049 さんと同意見で、残念ながらPython言語はこの手の並列処理・演算高速化に不向きです。Pythonに限らずですが、大抵のLL言語では GIL(GVL) がボトルネックになっています。真に並列化・処理高速化が必要な場合、最終的にはC言語などのネイティブ・コンパイル方式のプログラミング言語を利用する必要があると思います。

前提・実現したいこと

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問