python データのスケールについて

データのスケーリングについて教えてください。

資料を見ながらscikit-learnのMinMaxScalerを使ってデータを０から１の範囲にスケーリングするという内容を試してみました。
サンプルのデータセットに対して実行しているしてみて、訓練データが０～１の範囲で変換されていることが確認できました。

ただ、テストデータに対して同様の処理をすると０～１の範囲を超えており1.3のような値が出ている特徴量が含まれていました。
すべてのデータが０～１の間に入ると思っていたのですが違うのでしょうか？

また、訓練データをスケーリングする際は以下のようにfitメソッドに訓練データを渡しているのですが、
テストデータに対してスケーリングする際はtransformに渡しているだけでした。
fitメソッドにテストデータを渡さないことが疑問だったのですが、訓練データ、テストデータで別々にしないのはどういう理由があるからでしょうか？

的外れな質問で申し訳ありませんがアドバイス宜しくお願い致します。

python
1from sklearn.preprocessing import MinMaxScaler
2
3scaler = MinMaxScaler()
4
5# 訓練データスケーリング
6scaler.fit(X_train)
7
8X_train_scaled = scaler.transform(X_train)
9
10print(X_train_scaled.shape)
11print(X_train.min(axis=0))
12print(X_train.max(axis=0))
13print(X_train_scaled.min(axis=0))
14print(X_train_scaled.max(axis=0))
15print(X_train_scaled)
16
17#　テストデータスケーリング
18X_test_scaled = scaler.transform(X_test)
19print('X_test_scaled min : \n{}'.format(X_test_scaled.min(axis=0)))
20print('X_test_scaled max : \n{}'.format(X_test_scaled.max(axis=0)))

コード全文

python
1import numpy as np
2import matplotlib.pyplot as plt
3import pandas as pd
4import mglearn
5from sklearn.model_selection import train_test_split
6from sklearn.ensemble import GradientBoostingClassifier
7from sklearn.datasets import load_breast_cancer
8
9cancer = load_breast_cancer()
10
11X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=42)
12
13print(X_train.shape)
14print(X_test.shape)
15print(y_train.shape)
16print(y_test.shape)
17
18from sklearn.preprocessing import MinMaxScaler
19
20scaler = MinMaxScaler()
21
22# 訓練データスケーリング
23scaler.fit(X_train)
24
25X_train_scaled = scaler.transform(X_train)
26
27print(X_train_scaled.shape)
28print(X_train.min(axis=0))
29print(X_train.max(axis=0))
30print(X_train_scaled.min(axis=0))
31print(X_train_scaled.max(axis=0))
32print(X_train_scaled)
33
34#　テストデータスケーリング
35X_test_scaled = scaler.transform(X_test)
36print('X_test_scaled min : \n{}'.format(X_test_scaled.min(axis=0)))
37print('X_test_scaled max : \n{}'.format(X_test_scaled.max(axis=0)))
38
39

行動規範の内容に同意します

回答1件

ベストアンサー

たとえば

[-0.8, -0.2, 0.3, 1.2]

というデータでfitさせたとして（ここでは１次元だけ見ていると思ってください）、

最小値は-0.8、最大値は1.2なのでデータの最小値から最大値までのスケールは2。なので2で割り、以下のデータを得る

[-0.4 , -0.1 , 0.15, 0.6]

上の結果の最小値は-0.4なので、0.4を足して0～1の範囲に収め、次のデータを得る

[0. , 0.3 , 0.55, 1. ]

という処理をしている訳ですね。

だから、たとえばtransformの際に-1とか1.4とか2が来れば、はみ出ます。

テストデータを渡す際にfitさせないのは、後続のモデルの都合を考えればわかるかと。

例として何らかの回帰モデルを考えて、モデル全体はたとえば80ならば123と予想するものだったとします。

MinMaxScalerを通して、80がたとえば0.4になったとしましょう。後ろのモデルは0.4なら123にすると学習します。

この0.4というのは、学習データを基準にしてfitしたMinMaxScalerの出力する数値です。テストデータに対してMinMaxScalerをfitさせてしまうと、最小値および最大値が変わって、また異なった変換になってしまいます。

80が0.4にならないということですね。テストデータにもたまたま80が含まれていたとして、これがテストデータにfitさせたせいで0.37とか0.6とかになってしまうと、モデル全体で予測が狂います。

なのでテストデータにfitさせてはいけません。

投稿2018/08/17 10:12

編集2018/08/17 10:34

hayataka2049

総合スコア30933

---stax---

2018/08/21 05:46

回答ありがとうございます。返答遅くなり申し訳ありません。訓練データを基準にしてテストデータを変換するから0～1の間に値が当てはまらないケースもある、という解釈で間違いないでしょうか？テストデータに対してfitさせないのも同様で、テストデータに対してfitさせた場合基準が変わる（データ自体が変わってしまう）ということですね。