悩んでいること

SVMのパラメータをチューニングするために、GridSearchCVを用いています。
GridSearchCVで交差検証を行う前に、データの正規化を行いたいのですが、コードに迷っています。

現状

python
1（一部省略）
2
3X = df_all
4y = df["label"]
5
6(train_X , test_X , train_y , test_y) = train_test_split(X, y, test_size = 0.25, random_state = 0, shuffle=False)
7
8param_dict = {
9    "C": [0.1 * x for x in range(1, 1001)],
10    "gamma": [0.01 * x for x in range(1, 10)]
11}
12
13scalar = MinMaxScaler().fit(train_X)
14train_X_scaled = scalar.transform(train_X)
15test_X_scaled = scalar.transform(test_X)
16
17grid_search = GridSearchCV(SVC(), param_dict, cv=10, return_train_score=False, scoring="roc_auc")
18grid_search.fit(train_X_scaled, train_y)
19
20best_parameters = grid_search.best_params_
21svc = SVC(**best_parameters, random_state=0, probability=True)
22
23svc.fit(train_X_scaled, train_y)
24pred = svc.predict(test_X_scaled)
25
26print('Test set AUC with best parameters: {}'.format(roc_auc_score(pred, test_y)))

上コード内の

python
1scalar = MinMaxScaler().fit(train_X)
2train_X_scaled = scalar.transform(train_X)
3test_X_scaled = scalar.transform(test_X)

の部分でtrain_Xを利用してtrain_Xとtest_Xを正規化しています。
しかし、自分で調べたとことろ、test_X_scaled = scalar.transform(test_X)を書かずに、

python
1svc.fit(train_X_scaled, train_y)
2pred = svc.predict(test_X_scaled)

の部分を

python
1svc.fit(train_X_scaled, train_y)
2svc.predict(test_X)

としている文献があったり、

別の疑問として、

train_Xをまるごと正規化して交差検証の対象にしている
＝交差検証において、「学習データ（train_X_scaledの9/10）」が本来学習に使うべきでない「テストデータ（train_X_scaledの1/10）」も含めたデータ全体（train_X_scaled）で正規化されている
＝交差検証で過学習が起こっているのではないか？

という考えが生じ、頭がこんがらがっています。

詳しい方がいましたら、SVMでグリッドサーチを使用する際の、適切な正規化の方法をご教授頂きたいです。
よろしくお願いいたします。

追記

頂いた回答を参考に修正してみました。このコードで適切に書けているでしょうか？

python
1//（一部省略）
2
3X = df_all
4y = df["label"]
5
6(train_X , test_X , train_y , test_y) = train_test_split(X, y, test_size = 0.25, random_state = 0, shuffle=False)
7
8# パイプライン
9pipe = Pipeline([
10           ('scale', MinMaxScaler()),
11           ('clf', SVC())
12       ])
13
14param_dict = {
15    "clf__C": [0.1 * x for x in range(1, 1001)],
16    "clf__gamma": [0.01 * x for x in range(1, 10)]
17}
18
19grid_search = GridSearchCV(pipe, param_dict, cv=10, return_train_score=False, scoring="roc_auc")
20grid_search.fit(train_X, train_y)
21
22best_parameters = {}
23best_parameters['C'] = grid_search.best_params_['clf__C']
24best_parameters['gamma'] = grid_search.best_params_['clf__gamma']
25svc = SVC(**best_parameters, random_state=0, probability=True)
26
27scalar = MinMaxScaler().fit(train_X)
28trainVal_X_scaled = scalar.transform(train_X)
29test_X_scaled = scalar.transform(test_X)
30svc.fit(train_X_scaled, train_y)
31pred = svc.predict(test_X_scaled)
32
33print('Test set AUC with best parameters: {}'.format(roc_auc_score(pred, test_y)))

行動規範の内容に同意します

回答2件

トレーニングデータをスケールしているのにテストデータをスケールしていないのはミスだと思われます。
トレーニングセットが十分に大きくて、そこから求められる平均、分散が母集団の平均、分散として認められそうなら、常にtrain_X_scaledを使っていいと思います。テストデータに対しても使っていいです。
scaleがなにしているかと、平均値が正しく求められてそうかを調べてみてください。

投稿2019/11/18 14:35

fukatani

総合スコア626

ベストアンサー

scikit-learnで複数のモデルを多段に積み重ねる場合、原則的にはPipelineを使うようにしてください。それが混乱を防ぐ最良の方法です。

sklearn.pipeline.Pipeline — scikit-learn 0.21.3 documentation

投稿2019/11/18 14:33

hayataka2049

総合スコア30933

dal

2019/11/18 14:36

ご回答ありがとうございます。 >複数のモデルを多段に積み重ねる場合これは交差検証のことを指しているのでしょうか？私のコードでは10個のモデルを積み重ねていると言えますかね。

hayataka2049

2019/11/18 14:39 編集

＞これは交差検証のことを指しているのでしょうか？いえ、たとえばMinMaxScalerでスケーリングしてからSVCで予測するといったケースのことを言っています。他にも、変数選択や次元削減を入れようとするときはだいたい当てはまります。

dal

2019/11/18 15:02 編集

Pipelineを使用して修正してみました。追記の項目を確認していただけると幸いです。

hayataka2049

2019/11/18 15:07 編集

grid_search.fit(train_X, train_y) の行までは良いと思います。その後は間違っています。グリッドサーチを行った後、改めてモデルを構成する必要はありません。得られたgrid_searchをそのまま使うか、grid_search.best_estimator_を取り出して使えば十分でしょう（refit=True（デフォルト設定）の場合）。 https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html なので、最短で書くなら grid_search.fit(train_X, train_y) pred = grid_search.predict(test_X) print('Test set AUC with best parameters: {}'.format(roc_auc_score(test_y, pred))) # 引数の順番間違ってたので直しましたで終わりです。

dal

2019/11/18 16:42

ご丁寧な返信ありがとうございます。 Pipelineを使うことによって、 grid_search.fit(train_X, train_y) pred = grid_search.predict(test_X) とするだけでMinMaxScalerが適用されるということでですね。この場合、交差検証で過学習が起こることもないのでしょうか？（最初の質問の疑問点でもあります）

hayataka2049

2019/11/19 03:08

交差検証における分割されたデータで訓練し、テストデータは変換のみが施されるよう自動で処理されますから、問題ないでしょう。

dal

2019/11/19 03:18

ありがとうございました！

hayataka2049

2019/11/19 03:20

Pipelineを使わない場合は確かに問題になります。パラメータチューニングにわずかに影響するだけなのでどうでも良いと割り切れるかどうかは微妙なところです。

行動規範の内容に同意します

あなたの回答