SVM：グリッドサーチで最適化したモデルを保存するには？

SVMでグリッドサーチを実行しました。
最適なパラメータは分かったのですが、その時の学習済モデルを保存するにはどうすればよいでしょうか？
以下のコードでは、グリッドサーチが実行した、おそらく最後のパラメータの組み合わせの学習済モデルが保存されてしまい、最適時の学習済モデルが保存できません。

この辺、お詳しい方、ご指導をお願いいたします。

from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV
param_grid = {'C': [0.1, 1, 10, 100, 1000],  
              'gamma': [1, 0.1, 0.01, 0.001, 0.0001], 
              'kernel': ['rbf']}
             #'kernel': ['linear']}
clf = GridSearchCV(SVC(), param_grid, refit = True, verbose = 0, cv=3)

# 訓練データとラベルで学習
clf.fit(x_train, y_train)

# 最も良いパラメータとスコア
print(clf.best_params_) 
print(clf.best_score_)

{'C': 10, 'gamma': 0.0001, 'kernel': 'rbf'}
0.8395833333333333

# 学習済モデルを保存する（SVM）
import pickle

filename = 'ERP(SVM).sav'
pickle.dump(clf, open(filename, 'wb'))

行動規範の内容に同意します

回答1件

ベストアンサー

clf.best_estimator_ が一番精度がよかったモデルなので、

python
1pickle.dump(clf.best_estimator_, open(filename, 'wb'))

と保存すればよいです。

best_estimator_: Estimator that was chosen by the search

sklearn.model_selection.GridSearchCV — scikit-learn 0.21.3 documentation

追記

python
1import pickle
2
3from sklearn import metrics
4from sklearn.datasets import make_blobs
5from sklearn.model_selection import GridSearchCV
6from sklearn.svm import SVC
7
8# データセットを作成する。
9X, y = make_blobs(n_samples=1000, centers=2, random_state=0)
10
11# グリッドサーチを行う。
12param_grid = {
13    "C": [0.1, 1, 10, 100, 1000],
14    "gamma": [1, 0.1, 0.01, 0.001, 0.0001],
15    "kernel": ["rbf"],
16}
17
18clf = GridSearchCV(SVC(), param_grid, refit=True, verbose=0, cv=3)
19clf.fit(X, y)
20
21filename = "ERP(SVM).sav"
22
23acc_before_save = clf.score(X, y)  # 保存前にスコア計算
24
25# モデルを保存する。
26pickle.dump(clf.best_estimator_, open(filename, "wb"))
27
28# モデルを読み込む。
29loaded_model = pickle.load(open(filename, "rb"))
30
31acc_after_load = loaded_model.score(X, y)  # 読み込み後にスコア計算
32
33# 一致するかどうか
34print(np.isclose(acc_before_save, acc_after_load))  # True

投稿2019/10/26 13:29

編集2019/10/26 13:54

tiitoi

総合スコア21956

python_2019

2019/10/26 13:43

ご連絡どうもありがとうございます。お教え頂いたとおり、コード記述して実行させました。そして、以下を実行しました。　・モデル保存⇒モデルロード⇒正解率をprint そうしましたら、グリッドサーチ実行時の最適時モデルの正解率（0.79)と、それをロードしたモデルでの正解率(0.88)が異なる値になってしまいました。どこかコードが誤っているのでしょうか？ご指導頂ければ大変助かります。よろしくお願いいたします。 from sklearn.svm import SVC from sklearn.model_selection import GridSearchCV param_grid = {'C': [0.1, 1, 10, 100, 1000], 'gamma': [1, 0.1, 0.01, 0.001, 0.0001], 'kernel': ['rbf']} #'kernel': ['linear']} clf = GridSearchCV(SVC(), param_grid, refit = True, verbose = 0, cv=3) # 訓練データとラベルで学習 clf.fit(x_train, y_train) # 最も良いパラメータとスコア print(clf.best_params_) print(clf.best_score_) {'C': 10, 'gamma': 0.0001, 'kernel': 'rbf'} 0.7979166666666667 # モデルを保存する（SVM） import pickle filename = 'ERP(SVM).sav' pickle.dump(clf.best_estimator_, open(filename, 'wb')) # 保存したモデルをロードする filename = 'ERP(SVM).sav' loaded_model = pickle.load(open(filename, 'rb')) from sklearn import metrics # 正解率を返す　　 accuracy = clf.score(x_test, y_test) print(f"正解率⇒　{accuracy}") 正解率⇒　0.8833333333333333

tiitoi

2019/10/26 13:50

loaded_model = pickle.load(open(filename, 'rb')) で読み込んだモデルを loaded_model という変数に入れたのであれば、読み込んだモデルでスコアを計算する際は print(clf.score(x_test, y_test)) ではなく、 print(loaded_model.score(x_test, y_test)) と loaded_model の score を呼び出すべきではないでしょうか

python_2019

2019/10/26 14:04

ご指導ありがとうございます。以下のように修正しました。しかし、やはり、正解率の値が異なってしまいます...。なぜでしょうか？基本的な事をお聞きして申し訳ございません。。 # モデルを保存する（SVM） import pickle filename = 'ERP(SVM).sav' pickle.dump(clf.best_estimator_, open(filename, 'wb')) # 保存したモデルをロードする filename = 'ERP(SVM).sav' loaded_model = pickle.load(open(filename, 'rb')) from sklearn import metrics # 正解率を返す　　 accuracy = loaded_model.score(x_test, y_test) print(f"正解率⇒　{accuracy}")

tiitoi

2019/10/26 14:32 編集

もしかして clf.best_score_ の値と loaded_model.score(x_test, y_test) の値を比較して、違うと言っていますか？それは値が異なっていて問題ありません。 clf.best_score_ は交差検証した際のスコアで、loaded_model.score(x_test, y_test) はテストデータに対するスコアなので、計算しているものが違います。「グリッドサーチで最適化したモデルを保存」というのはコメントに記載していただいたコードで問題ありません。

python_2019

2019/10/26 14:40

ご指導ありがとうございます。はい、おっしゃる通り、その２つの値を比較しておりました。交差検証しているものと、そうでないものとはスコアが異なると言うことなのですね。理解できました。１つ基本的な事でお教え頂きたいのですが、グリッドサーチでのスコアは、訓練データに対するスコアではなく、テストデータに対するスコアという理解でよろしいでしょうか？すなわち、汎化性能のスコアということでよいでしょうか？よろしくお願いいたします。

tiitoi

2019/10/26 14:53 編集

clf.best_score_ は最も性能がよかったモデルのグリッドサーチ中に交差検証した際のスコアです。交差検証で今回 cv=3 で3分割交差検証なので、あるパラメータを試す場合に、学習データを3分割して2個を使って学習し、残り1個でバリデーションするというのを3回繰り返すことになりますが、それで出てきた3つのスコアの平均が交差検証のスコアとして記録されます。 clf.best_score_ は最も性能がよかったモデルの交差検証のスコアです。 loaded_model.score(x_test, y_test) はデータ x_test, y_test を与えたときのスコアです。

python_2019

2019/10/26 15:03

ご連絡ありがとうございます。理解が深まりました。グリッドサーチでは、学習データを分割して検証を繰り返すので、あくまで、学習データでの性能評価ということなのですね。私の比較していたデータは、この学習データのスコアと、testデータのスコアなので、交差検証以前にそもそも異なるものを比較していたということでしょうか？なんども申し訳ありません。よろしくお願いいたします。

tiitoi

2019/10/26 15:13 編集

> グリッドサーチでは、学習データを分割して検証を繰り返すので、あくまで、学習データでの性能評価ということなのですね。その理解であっています。 > そもそも異なるものを比較していたということでしょうか？はい、そういうことになります。

python_2019

2019/10/26 15:13

いろいろご指導頂きありがとうございました。

行動規範の内容に同意します