CPU制限の解除方法

Question

### 前提・実現したいこと

pythonにて機械学習を行なっています。
計算処理が遅いため、処理速度を向上させたいです。
自分なりに試行錯誤したものの、原因がわからず、、、
ご回答いただけますでしょうか。

### 発生している問題・エラーメッセージ

計算時間が多くかかっている箇所はsklearnモジュールを用いたKNNの処理でした。
処理時にはn_jobs = -1としているため、使用可能なCPUは全て使用しているつもりでしたが、
計算実行時にcpuを確認したところ、あまりCPUが稼働していない状況であることがわかりました。
このアイドル状態のCPUを使用できれば処理速度が向上すると言う認識です。

![イメージ説明](72eed4dd4f3f5b047b2bf71ca155a6b4.png)
![イメージ説明](494d451e48b6ef2f8624b2b8e6472b7e.png)

### 該当のソースコード

```python
from sklearn.neighbors import KNeighborsClassifier as KNN
from sklearn import metrics

def use_knn_single(X, Y, pred_X):
    model = KNN(n_neighbors=30, weights='distance', algorithm='auto', leaf_size=30, n_jobs=-1)
    model.fit(X.values, Y.values)

    result_pred = model.predict(pred_X.values)[0]

    return result_pred
```

### 試したこと

KNNのn_jobs = 1と設定したのち、
該当処理をmultiprocessingモジュールで外部から制御したものの結果は変わらず。

### 補足情報（FW/ツールのバージョンなど）

OS:macOS Catalina
CPU：3.2 GHz 6コア 12スレッド
メモリ：16 GB
python：3.7.5

学習データサイズ：1600 rows ×40 coulumns（最大）
学習データの型：pandas[float64/object/int64]
            （目的変数の型はint64）
目的変数のクラス数：６
テストデータのサイズ：1 row

※上記関数は処理の中で複数回呼び出しています
（可能な限り最新の情報を用いて予測したいため）。
加えて使用するカラムのリストを変更しつつ（最大：４０、最小：5）呼び出しているので、合わせてかなりの回数で上記関数を呼び出しています。

Accepted Answer

状況からして、一回の処理自体にはほとんど時間はかからないはずです。関数を一回処理するのにかかる時間を測って見ると良いと思います。

問題はこの関数を複数回呼び出していることです。`KNeighborsClassifier`の**内部の学習・予測はマルチコアを活かして並列に効率よく行われますが**、並列化が効くのはその部分だけです。並列化が効かないPythonレイヤの処理もありますし、分類器モデル内部でも初期化など並列性の低い部分があります。

一度に大量のデータを流し込んで学習・予測させれば並列性の低い部分がボトルネックになることは避けられますが、今回のような使い方では並列性の低い部分が足を引っ張り、スピードの出ようがありません。

また、マルチプロセス並列化してもオーバーヘッドを考えるとかなり無理があるかと思います。個々の処理が小さければオーバーヘッドの方が足を引っ張ります。むしろ非Pythonレイヤで走るCPU待ちの処理が多いので、スレッド並列が効くかもしれません（スレッド間でデータが整合的かどうか等、注意するべきことは多いですが）。

ロジックを見直せるならそれが一番いいです。


# 追記
スレッド並列化のテスト。

```python
import time
import numpy as np
from concurrent.futures import ThreadPoolExecutor 
from sklearn.neighbors import KNeighborsClassifier

X = np.random.normal(size=(16*10*3, 4*10**1))
y = np.random.normal(size=(16*10*3, )) > 0

def f():
    model = KNeighborsClassifier(n_neighbors=30, weights='distance', algorithm='auto', leaf_size=30, n_jobs=-1)
    model.fit(X, y)
    model.predict(X[0:1])

t1 = time.time()
for _ in range(10**2):
    f()
t2 = time.time()
print(t2 - t1)  # 11.042834997177124

t1 = time.time()
with ThreadPoolExecutor() as executor:
    res = [executor.submit(f) for _ in range(10**2)]
    for f in res:
        f.result()
t2 = time.time()
print(t2 - t1)  # 0.8094661235809326

```

やっぱり待ち時間が長いので、スレッド並列は一つの答えかも。複数同時に回せるタスクがあるならですが。

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

追記

関連した質問