cross_val_score と fit

最初に自分の解釈を書きますと、

cross_val_score
データを学習用と検証用に分けて [ fit predict 正解率を出す ] を数回繰り返し、その数回の正解率を返す。

cross_val_score でスコアがよかったモデルを採用。

これで次の流れは下記になるのですが、
fit ← これ必要ですか？
predict

cross_val_scoreでスコアがいいモデルが解ったならそのモデルで予測だけすればいいのではないでしょうか？
なぜ fit でまた学習させなければならないのでしょうか？

y_waiwai

2020/05/16 09:50

質問が意味不明です cross_val_scoreとはなんでしょうか

technocore

2020/05/16 10:17

＞fit ← これ必要ですか？必要です。交差検証(cross_val_score)はモデルを返さないからです。評価が目的です。

takahashi-one

2020/05/16 12:18

回答ありがとうございます。インスタンスとオブジェクトの関係みたいな感じですか？例えるなら下記のような感じ。 gbr = GradientBoostingRegressor ～ gbrは設計図 fit で返されるのがオブジェクト

quickquip

2020/05/16 13:38 編集

質問を編集して、質問にコードで示しましょう。（ここは「質問への追記・修正の依頼」欄）

行動規範の内容に同意します

回答1件

cross_val_score でスコアがよかったモデルを採用。

これが一回のcross_val_scoreの結果に対する言及なら明確に間違いです。交差検証のFOLDごとの優劣を比較しても意味がないからです。

複数回行った結果を処理しているのであれば間違いとまでは言えません。ただ、たとえばハイパーパラメータのチューニングのような作業をしたい場合は、model_selectionに便利なクラスがたくさんあるので、corss_val_scoreを使うよりそちらを検討した方が良いかもしれません。

cross_val_scoreに渡したモデルはfitされません。

python
1>>> from sklearn.model_selection import cross_val_score
2>>> from sklearn.svm import SVC
3>>> from sklearn.datasets import load_iris
4>>> iris = load_iris()
5>>> svm = SVC()
6>>> cross_val_score(svm, iris.data, iris.target)
7array([0.96666667, 0.96666667, 0.96666667, 0.93333333, 1.        ])
8>>> svm.predict(iris.data)
9Traceback (most recent call last):
10  File "<stdin>", line 1, in <module>
11  File "/*/site-packages/sklearn/svm/_base.py", line 584, in predict
12    check_is_fitted(self)
13  File "/*/site-packages/sklearn/utils/validation.py", line 952, in check_is_fitted
14    raise NotFittedError(msg % {'name': type(estimator).__name__})
15sklearn.exceptions.NotFittedError: This SVC instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator.

理由としては、スコア計算の副作用でfitされるのはあまり意味論的に望ましくない、交差検証でやっているので全データを使って学習させていないからfitさせた結果も再利用が難しい、といったことが挙げられます。原理的には交差検証のFOLDごとに学習済み分類器を得ることも問題なくできるのですが、corss_val_scoreがそういう使い方をサポートしているかは別問題です。cross_validateの方ならできますが。

投稿2020/05/16 15:46