質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.92%

【scikit-learn】SVMでグリッドサーチを使用する際の正規化(Scalerの使い方)について

解決済

回答 2

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 574

dal

score 36

悩んでいること

SVMのパラメータをチューニングするために、GridSearchCVを用いています。
GridSearchCVで交差検証を行う前に、データの正規化を行いたいのですが、コードに迷っています。

現状

(一部省略)

X = df_all
y = df["label"]

(train_X , test_X , train_y , test_y) = train_test_split(X, y, test_size = 0.25, random_state = 0, shuffle=False)

param_dict = {
    "C": [0.1 * x for x in range(1, 1001)],
    "gamma": [0.01 * x for x in range(1, 10)]
}

scalar = MinMaxScaler().fit(train_X)
train_X_scaled = scalar.transform(train_X)
test_X_scaled = scalar.transform(test_X)

grid_search = GridSearchCV(SVC(), param_dict, cv=10, return_train_score=False, scoring="roc_auc")
grid_search.fit(train_X_scaled, train_y)

best_parameters = grid_search.best_params_
svc = SVC(**best_parameters, random_state=0, probability=True)

svc.fit(train_X_scaled, train_y)
pred = svc.predict(test_X_scaled)

print('Test set AUC with best parameters: {}'.format(roc_auc_score(pred, test_y)))

上コード内の

scalar = MinMaxScaler().fit(train_X)
train_X_scaled = scalar.transform(train_X)
test_X_scaled = scalar.transform(test_X)


の部分でtrain_Xを利用してtrain_Xtest_Xを正規化しています。
しかし、自分で調べたとことろ、test_X_scaled = scalar.transform(test_X)を書かずに、

svc.fit(train_X_scaled, train_y)
pred = svc.predict(test_X_scaled)


の部分を

svc.fit(train_X_scaled, train_y)
svc.predict(test_X)


としている文献があったり、

別の疑問として、

train_Xをまるごと正規化して交差検証の対象にしている
交差検証において、「学習データ(train_X_scaledの9/10)」が本来学習に使うべきでない「テストデータ(train_X_scaledの1/10)」も含めたデータ全体(train_X_scaled)で正規化されている
交差検証で過学習が起こっているのではないか?

という考えが生じ、頭がこんがらがっています。

詳しい方がいましたら、SVMでグリッドサーチを使用する際の、適切な正規化の方法をご教授頂きたいです。
よろしくお願いいたします。

追記

頂いた回答を参考に修正してみました。このコードで適切に書けているでしょうか?

//(一部省略)

X = df_all
y = df["label"]

(train_X , test_X , train_y , test_y) = train_test_split(X, y, test_size = 0.25, random_state = 0, shuffle=False)

# パイプライン
pipe = Pipeline([
           ('scale', MinMaxScaler()),
           ('clf', SVC())
       ])

param_dict = {
    "clf__C": [0.1 * x for x in range(1, 1001)],
    "clf__gamma": [0.01 * x for x in range(1, 10)]
}

grid_search = GridSearchCV(pipe, param_dict, cv=10, return_train_score=False, scoring="roc_auc")
grid_search.fit(train_X, train_y)

best_parameters = {}
best_parameters['C'] = grid_search.best_params_['clf__C']
best_parameters['gamma'] = grid_search.best_params_['clf__gamma']
svc = SVC(**best_parameters, random_state=0, probability=True)

scalar = MinMaxScaler().fit(train_X)
trainVal_X_scaled = scalar.transform(train_X)
test_X_scaled = scalar.transform(test_X)
svc.fit(train_X_scaled, train_y)
pred = svc.predict(test_X_scaled)

print('Test set AUC with best parameters: {}'.format(roc_auc_score(pred, test_y)))
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

0

scikit-learnで複数のモデルを多段に積み重ねる場合、原則的にはPipelineを使うようにしてください。それが混乱を防ぐ最良の方法です。

sklearn.pipeline.Pipeline — scikit-learn 0.21.3 documentation

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/11/19 12:08

    交差検証における分割されたデータで訓練し、テストデータは変換のみが施されるよう自動で処理されますから、問題ないでしょう。

    キャンセル

  • 2019/11/19 12:18

    ありがとうございました!

    キャンセル

  • 2019/11/19 12:20

    Pipelineを使わない場合は確かに問題になります。パラメータチューニングにわずかに影響するだけなのでどうでも良いと割り切れるかどうかは微妙なところです。

    キャンセル

0

トレーニングデータをスケールしているのにテストデータをスケールしていないのはミスだと思われます。
トレーニングセットが十分に大きくて、そこから求められる平均、分散が母集団の平均、分散として認められそうなら、常にtrain_X_scaledを使っていいと思います。テストデータに対しても使っていいです。
scaleがなにしているかと、平均値が正しく求められてそうかを調べてみてください。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.92%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る