🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

3294閲覧

SVM:グリッドサーチで最適化したモデルを保存するには?

python_2019

総合スコア68

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/10/26 13:16

編集2019/10/26 13:28

SVMでグリッドサーチを実行しました。
最適なパラメータは分かったのですが、その時の学習済モデルを保存するにはどうすればよいでしょうか?
以下のコードでは、グリッドサーチが実行した、おそらく最後のパラメータの組み合わせの学習済モデルが保存されてしまい、最適時の学習済モデルが保存できません。

この辺、お詳しい方、ご指導をお願いいたします。

from sklearn.svm import SVC from sklearn.model_selection import GridSearchCV param_grid = {'C': [0.1, 1, 10, 100, 1000], 'gamma': [1, 0.1, 0.01, 0.001, 0.0001], 'kernel': ['rbf']} #'kernel': ['linear']} clf = GridSearchCV(SVC(), param_grid, refit = True, verbose = 0, cv=3) # 訓練データとラベルで学習 clf.fit(x_train, y_train) # 最も良いパラメータとスコア print(clf.best_params_) print(clf.best_score_) {'C': 10, 'gamma': 0.0001, 'kernel': 'rbf'} 0.8395833333333333 # 学習済モデルを保存する(SVM) import pickle filename = 'ERP(SVM).sav' pickle.dump(clf, open(filename, 'wb'))

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

clf.best_estimator_ が一番精度がよかったモデルなので、

python

1pickle.dump(clf.best_estimator_, open(filename, 'wb'))

と保存すればよいです。

best_estimator_: Estimator that was chosen by the search

sklearn.model_selection.GridSearchCV — scikit-learn 0.21.3 documentation

追記

python

1import pickle 2 3from sklearn import metrics 4from sklearn.datasets import make_blobs 5from sklearn.model_selection import GridSearchCV 6from sklearn.svm import SVC 7 8# データセットを作成する。 9X, y = make_blobs(n_samples=1000, centers=2, random_state=0) 10 11# グリッドサーチを行う。 12param_grid = { 13 "C": [0.1, 1, 10, 100, 1000], 14 "gamma": [1, 0.1, 0.01, 0.001, 0.0001], 15 "kernel": ["rbf"], 16} 17 18clf = GridSearchCV(SVC(), param_grid, refit=True, verbose=0, cv=3) 19clf.fit(X, y) 20 21filename = "ERP(SVM).sav" 22 23acc_before_save = clf.score(X, y) # 保存前にスコア計算 24 25# モデルを保存する。 26pickle.dump(clf.best_estimator_, open(filename, "wb")) 27 28# モデルを読み込む。 29loaded_model = pickle.load(open(filename, "rb")) 30 31acc_after_load = loaded_model.score(X, y) # 読み込み後にスコア計算 32 33# 一致するかどうか 34print(np.isclose(acc_before_save, acc_after_load)) # True

投稿2019/10/26 13:29

編集2019/10/26 13:54
tiitoi

総合スコア21956

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

python_2019

2019/10/26 13:43

ご連絡どうもありがとうございます。 お教え頂いたとおり、コード記述して実行させました。 そして、以下を実行しました。  ・モデル保存⇒モデルロード⇒正解率をprint そうしましたら、グリッドサーチ実行時の最適時モデルの正解率(0.79)と、それをロードしたモデルでの正解率(0.88)が異なる値になってしまいました。 どこかコードが誤っているのでしょうか? ご指導頂ければ大変助かります。 よろしくお願いいたします。 from sklearn.svm import SVC from sklearn.model_selection import GridSearchCV param_grid = {'C': [0.1, 1, 10, 100, 1000], 'gamma': [1, 0.1, 0.01, 0.001, 0.0001], 'kernel': ['rbf']} #'kernel': ['linear']} clf = GridSearchCV(SVC(), param_grid, refit = True, verbose = 0, cv=3) # 訓練データとラベルで学習 clf.fit(x_train, y_train) # 最も良いパラメータとスコア print(clf.best_params_) print(clf.best_score_) {'C': 10, 'gamma': 0.0001, 'kernel': 'rbf'} 0.7979166666666667 # モデルを保存する(SVM) import pickle filename = 'ERP(SVM).sav' pickle.dump(clf.best_estimator_, open(filename, 'wb')) # 保存したモデルをロードする filename = 'ERP(SVM).sav' loaded_model = pickle.load(open(filename, 'rb')) from sklearn import metrics # 正解率を返す   accuracy = clf.score(x_test, y_test) print(f"正解率⇒ {accuracy}") 正解率⇒ 0.8833333333333333
tiitoi

2019/10/26 13:50

loaded_model = pickle.load(open(filename, 'rb')) で読み込んだモデルを loaded_model という変数に入れたのであれば、読み込んだモデルでスコアを計算する際は print(clf.score(x_test, y_test)) ではなく、 print(loaded_model.score(x_test, y_test)) と loaded_model の score を呼び出すべきではないでしょうか
python_2019

2019/10/26 14:04

ご指導ありがとうございます。 以下のように修正しました。 しかし、やはり、正解率の値が異なってしまいます...。 なぜでしょうか? 基本的な事をお聞きして申し訳ございません。。 # モデルを保存する(SVM) import pickle filename = 'ERP(SVM).sav' pickle.dump(clf.best_estimator_, open(filename, 'wb')) # 保存したモデルをロードする filename = 'ERP(SVM).sav' loaded_model = pickle.load(open(filename, 'rb')) from sklearn import metrics # 正解率を返す   accuracy = loaded_model.score(x_test, y_test) print(f"正解率⇒ {accuracy}")
tiitoi

2019/10/26 14:32 編集

もしかして clf.best_score_ の値と loaded_model.score(x_test, y_test) の値を比較して、違うと言っていますか? それは値が異なっていて問題ありません。 clf.best_score_ は交差検証した際のスコアで、loaded_model.score(x_test, y_test) はテストデータに対するスコアなので、計算しているものが違います。 「グリッドサーチで最適化したモデルを保存」というのはコメントに記載していただいたコードで問題ありません。
python_2019

2019/10/26 14:40

ご指導ありがとうございます。 はい、おっしゃる通り、その2つの値を比較しておりました。 交差検証しているものと、そうでないものとはスコアが異なると言うことなのですね。 理解できました。 1つ基本的な事でお教え頂きたいのですが、グリッドサーチでのスコアは、訓練データに対するスコアではなく、テストデータに対するスコアという理解でよろしいでしょうか? すなわち、汎化性能のスコアということでよいでしょうか? よろしくお願いいたします。
tiitoi

2019/10/26 14:53 編集

clf.best_score_ は最も性能がよかったモデルのグリッドサーチ中に交差検証した際のスコアです。 交差検証で今回 cv=3 で3分割交差検証なので、あるパラメータを試す場合に、学習データを3分割して2個を使って学習し、残り1個でバリデーションするというのを3回繰り返すことになりますが、それで出てきた3つのスコアの平均が交差検証のスコアとして記録されます。 clf.best_score_ は最も性能がよかったモデルの交差検証のスコアです。 loaded_model.score(x_test, y_test) はデータ x_test, y_test を与えたときのスコアです。
python_2019

2019/10/26 15:03

ご連絡ありがとうございます。 理解が深まりました。 グリッドサーチでは、学習データを分割して検証を繰り返すので、あくまで、学習データでの性能評価ということなのですね。 私の比較していたデータは、この学習データのスコアと、testデータのスコアなので、交差検証以前にそもそも異なるものを比較していたということでしょうか? なんども申し訳ありません。 よろしくお願いいたします。
tiitoi

2019/10/26 15:13 編集

> グリッドサーチでは、学習データを分割して検証を繰り返すので、あくまで、学習データでの性能評価ということなのですね。 その理解であっています。 > そもそも異なるものを比較していたということでしょうか? はい、そういうことになります。
python_2019

2019/10/26 15:13

いろいろご指導頂きありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問