Keras TensorFlow predictに時間がかかるのでスレッド処理やマルチプロセス処理でなんとかしたい

Kerasで学習して保存したモデルを用いて予測を行なっています。
約５０００枚の画像を予測させます。
1枚あたりCPUで0.25秒かかります。ですので全部で20分かかる計算になります。
これをどうにかして１分にしたいです。
考えられるアイディアとしてスレッド処理やマルチプロセス処理だと思います。
以下のコードはマルチプロセス処理を記述したコードになります。

Python
1
2def splitf(f_lst,n):
3    n = int((len(f_lst)-1)/n)+1
4    return [f_lst[x:x + n] for x in range(0, len(f_lst), n)]
5
6
7def predict(f_lst):
8    model = load_model('model path')
9    for i,f in enumerate(f_lst):
10        img = load_img('file path, target_size=(224,224))
11        array = img_to_array(img)
12        x = np.expand_dims(array, axis=0)
13        x = preprocess_input(x)
14        ret = model.predict(x)
15    return 1
16
17def usemulti(job, fsplit):
18    p = Pool(multi.cpu_count() if job < 0 else job)
19    result = p.map(predict, fsplit)
20    p.close()
21    return result
22
23def main():
24    files = sorted(os.listdir('filepath'))
25    fsplit = splitf(files,12)
26    start = time.time()
27    res = usemulti(144, fsplit)
28    elapsed_time = time.time() - start
29    print(res)
30    print(elapsed_time)
31
32if __name__ == '__main__':
33    main()

これは予測させる画像のリストを１２分割してマルチプロセス処理を行なっています。
これを実行した結果少ししか早くなりませんでした。ある地点から分割数が増えるほど
時間がかかってしまっている状況です。どこがネックになっているのかが分からない状況です。
モデルのファイルサイズが３００MB近くあるためそこで何かしらうまくマルチプロセスがされていない
ような気がしています。どこに原因があるのでしょうか？また、その他この問題を解決できるような
アイデアがあれば教えて欲しいです。

hayataka2049

2018/07/19 05:40 編集

コア数・スレッド数がいくつのマシンなんですか？１２分割ということは、6コア12スレッドという理解でいいですか

_Victorique__

2018/07/19 05:45

36コアです。スレッド数はちょっと分からないです。ファイル数を１２分割しているということです。コードのmapという部分でファイル分割数の数だけpredict関数をプロセスにしているという認識です。

tachikoma

2018/07/19 05:53

修正前(マルチプロセスじゃないほう)のpredictだとCPU使用率どのくらいになってます？

_Victorique__

2018/07/19 05:58 編集

> tachikoma 使用率を調べられないような環境なのでちょっと回答が難しいです。ちなみにCPUは２つあり、合わせて36コアです。

_Victorique__

2018/07/19 06:00

分割数が増えるにしたがってkerasのpredict関数の実行速度が遅くなっています。

tachikoma

2018/07/19 06:11 編集

KerasのバックエンドであるTensorflow等は、複数コアのCPUリソースを使い切るような実装になっているので、マルチプロセスにするとCPUリソースの競合が起きてしまい、かえって遅くなってる気がします。予想ですが。

_Victorique__

2018/07/19 06:12

> tachikoma それはマルチCPUでも同じでしょうか？

tachikoma

2018/07/19 06:18

マルチCPUのは触ったことがないので分からないです。

wakame

2018/07/19 14:44

なぜ1枚ずつmodel.predictしているのでしょうか？そちらのほうが処理が早かったのですか。あとpredict関数(自作)が呼ばれるたびにモデルロードされるみたいですけど想定した処理ですか？一回モデルロードするだけで良い気がしますが。

wakame

2018/07/19 14:49

> 1枚あたりCPUで0.25秒かかります。これは画像1枚あたりのmodel.predictのみの処理時間のことですか？load_img, img_to_array, np.expand_dims, preprocess_inputを含めた画像1枚あたりの処理時間のことを言っていますか。

_Victorique__

2018/07/19 15:12

> なぜ1枚ずつmodel.predictしているのか → 複数枚でやるやり方が分かりません。教えていただけると嬉しいです。 predict関数(自作)が呼ばれるたびにモデルロードされるみたいですけど想定した処理ですか → 想定した処理です。マルチプロセス実行のためにモデルをロードしています。 1枚あたりCPUで0.25秒かかります。これは画像1枚あたりのmodel.predictのみの処理時間のことですか → そうです。それ以外の処理はpredictに比べれば微々たる時間でした。

行動規範の内容に同意します

回答1件

修正すべきはpredict関数内でmodelをloadしているところですね。
modelのロードは一度だけで大丈夫です。modelを毎度構築するのは計算リソースの無駄ですので。
一度ロードしたmodelを別途参照すればよいです。関数の引数渡すなり、globalで定義するなり、Classのメンバ変数に定義するなり。

そうすればmulti-processにせずとも1分で終わると思いますよ。(大きいmodelだと無理かもしれない)
あとはMiniBatch推論にしても良いです。
5000枚のデータを適当なChunkSizeに分割して一気に推論しましょう。

あとTensorFlowはFork-Safeではないので、Multi-processで実行するとうまく動作しない場合があります。

投稿2018/07/27 05:07

編集2018/07/27 05:10

miumiu0917

総合スコア12

_Victorique__

2018/07/27 06:46

回答有難うございます。 multi-processingするにあたってTensorFlowのモデルは_thread.lock objects扱いなので参照できないはずですがどのようにして参照するのでしょうか？あと、参照ができたとしてもmultiprocessingの意味がないと思うのですがどうでしょうか？

行動規範の内容に同意します