標準化した学習済モデルでは、１件の予測はできない？

Question

標準化したデータをサポートベクターマシンで機械学習して、
モデルを作成しました。
これを再利用したいと考えています。

再利用の時に入力する未知データは、
やはり事前に標準化する必要があるのでしょうか？
それとも、そのまま入力してもよいのでしょうか？


標準化して入力する場合、

　①学習時にテストデータ1000件を標準化してモデルを作成
　②この学習済モデルに未知データ**１件**を標準化して入力し予測

そうしますと、未知データは**１件**なので、
**標準偏差を求めることができず**、標準化はできなくなり、
予測自体できない事にはなりませんでしょうか？

実際に予測してみると、未知データが１件の場合、
エラーにはならないものの、どんなデータでも、
なぜか同じ結果となります。

標準化の場合、最低、２件以上の未知データを同時に入力しないと、
標準偏差が求まらないため、予測できないのでしょうか？

この場合でも、学習時の1000件の標準化に対して、
予測時に２件の未知データの標準化では、母数が大きく異なり、
正確な予測はできないのではと思いますが、いかがでしょうか？

この辺、お詳しい方、ご指導をお願いいたします。

Accepted Answer

> やはり事前に標準化する必要があるのでしょうか？

標準化する必要があります。

> 標準偏差を求めることができず、標準化はできなくなり、
> 予測自体できない事にはなりませんでしょうか？

テストデータを標準化する際は**学習データを標準化する際に計算した平均、標準偏差と使って**変換します。つまり、学習データを変換するのと同じ計算を行います。
テストデータは変換しても平均0、分散1になりませんが、それで問題ありません。

scikit-learn を使用する場合、StandardScaler の transform をテストデータに対しても適用すればよいです。
pickle で保存する際は SVM オブジェクトの他、StandardScaler オブジェクトも保存します。

## 学習時

```python
import pickle

import numpy as np
from sklearn import svm
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# データセットを作成する。
X, y = make_blobs(n_samples=1000, centers=2, random_state=0)

# ホールドアウト分割する。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, stratify=y, random_state=0)

# テストデータは保存しておく。
np.savez("test.npz", X=X_test, y=y_test)

# 学習データを標準化する。
sc = StandardScaler()
X_train_std = sc.fit_transform(X_train)

# 学習する。
clf = svm.LinearSVC(C=1, random_state=0)
clf.fit(X_train_std, y_train)

# 保存する。
pickle.dump(clf, open("svm.pickle", "wb"))
pickle.dump(sc, open("scaler.pickle", "wb"))
```

## 推論時

```python
import pickle

import numpy as np

# 読み込む。
clf = pickle.load(open("svm.pickle", "rb"))
sc = pickle.load(open("scaler.pickle", "rb"))
test_data = np.load("test.npz")

# テストデータを標準化する。
X_test_std = sc.transform(test_data["X"])

# 予測する。
y_pred = clf.predict(X_test_std)
```

学習時

推論時

関連した質問