python機械学習の標準化について

前提・実現したいこと

pythonで機械学習をしていて標準化をしようとしています。そこで疑問に思ったのですが、データをtest用と学習用の二つに分けていてそれらを標準化しようとしたときfitに渡すデータは一つのまま標準化してmodelにデータを渡していいのでしょうか。それとも別にインスタンスを生成してそれそれで標準化した方がいいのでしょうか？

from sklearn.preprocessing import StandardScaler
scaler=StandardScaler()
scaler.fit(x_train)
x_train_std=scaler.transform(x_train)
x_test=scaler.transform(x_test)

print(x_train_std)

x_testとx_trainは分割したデータです。

試したこと

fitの部分では引数で渡したデータの平均と標準偏差が保存されているのでその値によって標準化されているということを知りました。

ここにより詳細な情報を記載してください。

行動規範の内容に同意します

回答1件

ベストアンサー

標準化するための平均と標準偏差を計算するためにtest用のデータも使うのかという質問でしたら、当然ダメです。

学習を行って、その結果得られたモデルを使ってさまざまな入力を推論するのが機械学習です。
どういう質問(入力)が来るかはわかっていません。
それのいくつかの例を検証するのがtest用データです。
test用データとして何が来るかを知っていてそれを学習時に使うのでは実用的に意味がありません。

投稿2022/01/01 07:54

ppaul

総合スコア24670

watasihadarena

2022/01/01 08:29

ご回答ありがとうございます。自分は標準化の認識としてそのデータ群における散らばりの情報を保持したまま、無次元化することを標準化と思っていました。そのためこのソースのようにx_trainによるfit(x_trainのデータ群の散らばり具合と平均)でx_testの標準化を行っていいか疑問です。標準化はあくまでデータの整形を行っているだけなのでx_testの標準化はおこなっていいわけではないのですか？？

kokoa_spcgg

2022/01/01 10:41

私も勉強中なので確実とは言えないのですが、こちらのサイトでは訓練データでfitしたものでテストデータもtransformしなければならないとありましたので参考までに載せておきます。 https://mathwords.net/fittransform

watasihadarena

2022/01/01 14:07

お二人方こたえていただきありがとうございます。 kokoa_spcggさんの載せていただいたサイトを見てその後いろいろ調べたら納得できました。つまり訓練用データとテスト用データに分けたとき、比較的少なくなるテスト用データだと訓練用データとは違うばらつき具合になってしまうからということでした。訓練用データで学習をしているので訓練用データでのばらつき具合に対してテスト用データがどれほどの値を示すのかが重要であるということで自分なりに言語化してみました。

行動規範の内容に同意します