質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
scikit-learn

scikit-learnは、Pythonで使用できるオープンソースプロジェクトの機械学習用ライブラリです。多くの機械学習アルゴリズムが実装されていますが、どのアルゴリズムも同じような書き方で利用できます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

2157閲覧

sklearn.multiclass.OneVsRestClassifierの挙動について

yu__

総合スコア108

scikit-learn

scikit-learnは、Pythonで使用できるオープンソースプロジェクトの機械学習用ライブラリです。多くの機械学習アルゴリズムが実装されていますが、どのアルゴリズムも同じような書き方で利用できます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/01/08 05:40

編集2020/01/09 06:11

sklearn.multiclass.OneVsRestClassifierの挙動について

scikit-learnによる多クラスSVMを参考にSVCにおいて、One-versus-the-restとOne-versus-oneのどちらの戦略が良いかを実データをもとに知りました。
One-versus-the-restはOne-versus-oneと比較して計算時間が短い点において有効な戦略であるのかなぁ程度の理解だったので、精度に差がここまで出てくることが意外でした。
しかしながら、よく見てみると、
scikit-learnによる多クラスSVMに使用されているestimator = SVC(C=C, kernel=kernel, gamma=gamma)はdefalutでovrが使用されていると感じます(理由:sklearn.svm.SVCのデフォルトがdecision_function_shape='ovr')。

しかし、scikit-learnによる多クラスSVMによればdefalutはone-versus-the-oneによる識別と書かれてあり、この記述が正しければ、decision_function_shape='ovr'は何を意味しているのか、
逆にdecision_function_shape='ovr'が意味通りOne-versus-the-restを意味しているのであれば、以下のコード

python

1estimator = SVC(C=C, kernel=kernel, gamma=gamma) 2classifier = OneVsRestClassifier(estimator) 3classifier.fit(train_x, train_y) 4pred_y = classifier.predict(test_x)

によってovrに変換することによって精度が向上する理由は何を意味するのでしょうか?

詳しい方がいれば教えていただけると大変助かります。よろしくお願いいたします。

#追記
What is the difference between OneVsRestClassifier with SVC and SVC with decision_function_shape='ovr'?
上記のurlに軽く議論されています。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

引数decision_function_shape"ovr"にするか"ovo"にするかで性能が変化することはありません。

However, one-vs-one (‘ovo’) is always used as multi-class strategy
sklearn.svm.SVC — scikit-learn 0.22.1 documentation

ということで、内部的には常にOne-Versus-Oneで計算されるからです。この引数が影響を与えるのはdecision_functionメソッドの表面的な結果に対してだけです。

よってsklearn.multiclass.OneVsRestClassifierを用いることで性能が上がる可能性は当然あります。

投稿2020/01/09 06:23

編集2020/01/10 04:54
hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

yu__

2020/01/10 03:48

私もそうだと思い、 decision_function_shape='ovr'とわざわざ引数を設定し計算したのですが、精度に違いが出てしまいました。 from sklearn.datasets import load_digits from sklearn.multiclass import OneVsRestClassifier from sklearn.svm import SVC from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score np.random.seed(0) digits = load_digits() train_x, test_x, train_y, test_y = train_test_split(digits.data, digits.target) C = 1. kernel = 'rbf' gamma = 0.01 estimator = SVC(C=C, kernel=kernel, gamma=gamma,random_state=0, decision_function_shape='ovr') classifier = OneVsRestClassifier(estimator) classifier.fit(train_x, train_y) pred_y = classifier.predict(test_x) classifier2 = SVC(C=C, kernel=kernel, gamma=gamma,random_state=0, decision_function_shape='ovr') classifier2.fit(train_x, train_y) pred_y2 = classifier2.predict(test_x) print('One-versus-the-rest: {:.5f}'.format(accuracy_score(test_y, pred_y))) print('One-versus-one: {:.5f}'.format(accuracy_score(test_y, pred_y2))) result One-versus-the-rest: 0.93333 One-versus-one: 0.86000 やはり、何か違う計算をしているのではないかと考えるのは妥当なのかなと感じます。
hayataka2049

2020/01/10 04:52

すみません、正確に質問と仕様を理解していなかったので、回答を書き換えました。
hayataka2049

2020/01/10 05:22 編集

理屈の上では違いはありますが、パラメータチューニングせずに良し悪しを云々するのは邪道なので、 import numpy as np from sklearn.datasets import load_digits from sklearn.multiclass import OneVsRestClassifier from sklearn.svm import SVC from sklearn.model_selection import train_test_split, GridSearchCV from sklearn.metrics import accuracy_score np.random.seed(0) digits = load_digits() train_x, test_x, train_y, test_y = train_test_split(digits.data, digits.target, stratify=digits.target, shuffle=True, random_state=0) params = {"C":10*np.linspace(0.01, 0.5, 10), "gamma":[10**x for x in range(-6, -2)]} estimator = SVC(random_state=0, decision_function_shape="ovr") classifier = OneVsRestClassifier(estimator) classifier = GridSearchCV(classifier, {"estimator__" + k:v for k, v in params.items()}, n_jobs=-1) classifier.fit(train_x, train_y) pred_y = classifier.predict(test_x) print(classifier.best_params_) print(classifier.cv_results_["mean_fit_time"].mean()) print('One-versus-the-rest: {:.5f}'.format(accuracy_score(test_y, pred_y))) classifier2 = SVC(random_state=0, decision_function_shape='ovr') classifier2 = GridSearchCV(classifier2, params, n_jobs=-1) classifier2.fit(train_x, train_y) pred_y2 = classifier2.predict(test_x) print(classifier2.best_params_) print(classifier2.cv_results_["mean_fit_time"].mean()) print('One-versus-one: {:.5f}'.format(accuracy_score(test_y, pred_y2))) """ => {'estimator__C': 1.7333333333333334, 'estimator__gamma': 0.001} 0.3337974691390991 One-versus-the-rest: 0.99111 {'C': 0.6444444444444444, 'gamma': 0.001} 0.18513922929763793 One-versus-one: 0.98889 # 所見 その記事の設定はgamma大きすぎ。digitsなんてほとんど線形分離可能なのでごく小さいgammaでいい 精度の差は気のせいレベルなので(サンプル数を考えても意味はない)気にしないのが実践的態度 あとは時間差だが、今回はovoの方が速い。分離超平面が単純になるのでさっさと最適化できるとか、単にPythonで実装されてるOneVersusRestClassifierが遅くてlibsvm内部でやってるOVOの方が計算量は多くても速くなるとかそんな理由 いずれにせよ、今回のケースではあえてOneVersusRestClassifierを持ち出す価値は見いだせないという感想。もちろんケースバイケース """
yu__

2020/01/10 07:06

何度も返信していただきありがとうございます!ベストアンサーにさせて頂きました! パラメータチューニングせずに良し悪しを云々するのは邪道なので、というのは最もでした。ありがとうございます! この引数が影響を与えるのはdecision_functionメソッドの表面的な結果に対してだけです。 という文章の表面的な結果とは何を意味しているか教えていただけると幸いです。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問