質問編集履歴

書式の改善

2019/11/18 17:11

投稿

dal

スコア38

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -12,6 +12,130 @@
 ```python
+（一部省略）
+X = df_all
+y = df["label"]
+(train_X , test_X , train_y , test_y) = train_test_split(X, y, test_size = 0.25, random_state = 0, shuffle=False)
+param_dict = {
+    "C": [0.1 * x for x in range(1, 1001)],
+    "gamma": [0.01 * x for x in range(1, 10)]
+}
+scalar = MinMaxScaler().fit(train_X)
+train_X_scaled = scalar.transform(train_X)
+test_X_scaled = scalar.transform(test_X)
+grid_search = GridSearchCV(SVC(), param_dict, cv=10, return_train_score=False, scoring="roc_auc")
+grid_search.fit(train_X_scaled, train_y)
+best_parameters = grid_search.best_params_
+svc = SVC(**best_parameters, random_state=0, probability=True)
+svc.fit(train_X_scaled, train_y)
+pred = svc.predict(test_X_scaled)
+print('Test set AUC with best parameters: {}'.format(roc_auc_score(pred, test_y)))
+```
+上コード内の
+```python
+scalar = MinMaxScaler().fit(train_X)
+train_X_scaled = scalar.transform(train_X)
+test_X_scaled = scalar.transform(test_X)
+```
+の部分で`train_X`を利用して`train_X`と`test_X`を正規化しています。
+しかし、自分で調べたとことろ、`test_X_scaled = scalar.transform(test_X)`を書かずに、
+```python
+svc.fit(train_X_scaled, train_y)
+pred = svc.predict(test_X_scaled)
+```
+の部分を
+```python
+svc.fit(train_X_scaled, train_y)
+svc.predict(test_X)
+```
+としている文献があったり、
+別の疑問として、
+`train_X`をまるごと正規化して交差検証の対象にしている
+＝**交差検証において**、「学習データ（`train_X_scaled`の9/10）」が本来学習に使うべきでない「テストデータ（`train_X_scaled`の1/10）」も含めたデータ全体（`train_X_scaled`）で正規化されている
+＝**交差検証で**過学習が起こっているのではないか？
+という考えが生じ、頭がこんがらがっています。
+詳しい方がいましたら、SVMでグリッドサーチを使用する際の、適切な正規化の方法をご教授頂きたいです。
+よろしくお願いいたします。
+# 追記
+頂いた回答を参考に修正してみました。このコードで適切に書けているでしょうか？
+```python
 //（一部省略）
@@ -26,36 +150,50 @@
+# パイプライン
+pipe = Pipeline([
+           ('scale', MinMaxScaler()),
+           ('clf', SVC())
+       ])
 param_dict = {
-    "C": [0.1 * x for x in range(1, 1001)],
+    "clf__C": [0.1 * x for x in range(1, 1001)],
-    "gamma": [0.01 * x for x in range(1, 10)]
+    "clf__gamma": [0.01 * x for x in range(1, 10)]
 }
+grid_search = GridSearchCV(pipe, param_dict, cv=10, return_train_score=False, scoring="roc_auc")
+grid_search.fit(train_X, train_y)
+best_parameters = {}
+best_parameters['C'] = grid_search.best_params_['clf__C']
+best_parameters['gamma'] = grid_search.best_params_['clf__gamma']
+svc = SVC(**best_parameters, random_state=0, probability=True)
 scalar = MinMaxScaler().fit(train_X)
-train_X_scaled = scalar.transform(train_X)
+trainVal_X_scaled = scalar.transform(train_X)
 test_X_scaled = scalar.transform(test_X)
-grid_search = GridSearchCV(SVC(), param_dict, cv=10, return_train_score=False, scoring="roc_auc")
-grid_search.fit(train_X_scaled, train_y)
-best_parameters = grid_search.best_params_
-svc = SVC(**best_parameters, random_state=0, probability=True)
 svc.fit(train_X_scaled, train_y)
 pred = svc.predict(test_X_scaled)
@@ -65,141 +203,3 @@
 print('Test set AUC with best parameters: {}'.format(roc_auc_score(pred, test_y)))
 ```
-上コード内の
-```python
-scalar = MinMaxScaler().fit(train_X)
-train_X_scaled = scalar.transform(train_X)
-test_X_scaled = scalar.transform(test_X)
-```
-の部分で`train_X`を利用して`train_X`と`test_X`を正規化しています。
-しかし、自分で調べたとことろ、`test_X_scaled = scalar.transform(test_X)`を書かずに、
-```python
-svc.fit(train_X_scaled, train_y)
-pred = svc.predict(test_X_scaled)
-```
-の部分を
-```python
-svc.fit(train_X_scaled, train_y)
-svc.predict(test_X)
-```
-としている文献があったり、
-別の疑問として、
-`train_X`をまるごと正規化して交差検証の対象にしている
-＝**交差検証において**、「学習データ（`train_X_scaled`の9/10）」が本来学習に使うべきでない「テストデータ（`train_X_scaled`の1/10）」も含めたデータ全体（`train_X_scaled`）で正規化されている
-＝**交差検証で**過学習が起こっているのではないか？
-という考えが生じ、頭がこんがらがっています。
-詳しい方がいましたら、SVMでグリッドサーチを使用する際の、適切な正規化の方法をご教授頂きたいです。
-よろしくお願いいたします。
-# 追記
-頂いた回答を参考に修正してみました。このコードで適切に書けているでしょうか？
-```python
-//（一部省略）
-X = df_all
-y = df["label"]
-(train_X , test_X , train_y , test_y) = train_test_split(X, y, test_size = 0.25, random_state = 0, shuffle=False)
-# パイプライン
-pipe = Pipeline([
-           ('scale', MinMaxScaler()),
-           ('clf', SVC())
-       ])
-param_dict = {
-    "clf__C": [0.1 * x for x in range(1, 1001)],
-    "clf__gamma": [0.01 * x for x in range(1, 10)]
-}
-grid_search = GridSearchCV(pipe, param_dict, cv=10, return_train_score=False, scoring="roc_auc")
-grid_search.fit(train_X, train_y)
-best_parameters = {}
-best_parameters['C'] = grid_search.best_params_['clf__C']
-best_parameters['gamma'] = grid_search.best_params_['clf__gamma']
-svc = SVC(**best_parameters, random_state=0, probability=True)
-scalar = MinMaxScaler().fit(train_X)
-trainVal_X_scaled = scalar.transform(train_X)
-test_X_scaled = scalar.transform(test_X)
-svc.fit(train_X_scaled, train_y)
-pred = svc.predict(test_X_scaled)
-print('Test set AUC with best parameters: {}'.format(roc_auc_score(pred, test_y)))
-```

書式の改善

2019/11/18 17:11

投稿

dal

スコア38

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -188,9 +188,9 @@
-scalar = MinMaxScaler().fit(trainVal_X)
+scalar = MinMaxScaler().fit(train_X)
-trainVal_X_scaled = scalar.transform(trainVal_X)
+trainVal_X_scaled = scalar.transform(train_X)
 test_X_scaled = scalar.transform(test_X)

内容の追加

2019/11/18 14:56

投稿

dal

スコア38

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -125,3 +125,81 @@
 詳しい方がいましたら、SVMでグリッドサーチを使用する際の、適切な正規化の方法をご教授頂きたいです。
 よろしくお願いいたします。
+# 追記
+頂いた回答を参考に修正してみました。このコードで適切に書けているでしょうか？
+```python
+//（一部省略）
+X = df_all
+y = df["label"]
+(train_X , test_X , train_y , test_y) = train_test_split(X, y, test_size = 0.25, random_state = 0, shuffle=False)
+# パイプライン
+pipe = Pipeline([
+           ('scale', MinMaxScaler()),
+           ('clf', SVC())
+       ])
+param_dict = {
+    "clf__C": [0.1 * x for x in range(1, 1001)],
+    "clf__gamma": [0.01 * x for x in range(1, 10)]
+}
+grid_search = GridSearchCV(pipe, param_dict, cv=10, return_train_score=False, scoring="roc_auc")
+grid_search.fit(train_X, train_y)
+best_parameters = {}
+best_parameters['C'] = grid_search.best_params_['clf__C']
+best_parameters['gamma'] = grid_search.best_params_['clf__gamma']
+svc = SVC(**best_parameters, random_state=0, probability=True)
+scalar = MinMaxScaler().fit(trainVal_X)
+trainVal_X_scaled = scalar.transform(trainVal_X)
+test_X_scaled = scalar.transform(test_X)
+svc.fit(train_X_scaled, train_y)
+pred = svc.predict(test_X_scaled)
+print('Test set AUC with best parameters: {}'.format(roc_auc_score(pred, test_y)))
+```

書式の改善

2019/11/18 14:55

投稿

dal

スコア38

test CHANGED Viewed

	@@ -1 +1 @@
1	- 【scikit-learn】SVMのグリッドサーチ~~におけ~~る正規化~~の方法~~（Scalerの使い方）について
1	+ 【scikit-learn】SVMでグリッドサーチを使用する際の正規化（Scalerの使い方）について

test CHANGED Viewed

@@ -104,13 +104,19 @@
 としている文献があったり、
 別の疑問として、
 `train_X`をまるごと正規化して交差検証の対象にしている
 ＝**交差検証において**、「学習データ（`train_X_scaled`の9/10）」が本来学習に使うべきでない「テストデータ（`train_X_scaled`の1/10）」も含めたデータ全体（`train_X_scaled`）で正規化されている
 ＝**交差検証で**過学習が起こっているのではないか？
 という考えが生じ、頭がこんがらがっています。