SVMによる多クラス分類で予測すると、すべて同じクラスに分類される

Question

### 発生している問題・エラーメッセージ

```
当方、農作物の研究をしております。
過去十数年にわたり国内約100か所で気象データや土壌の状態に関する指標約80種を調査した結果がexcelのinputシートに、
また同年の収穫時期(1：9月上旬、2:9月中旬・・・6：月下旬として、多クラス分類されてます)を調査した結果が
同じブック内のanswerシートにそれぞれ約2000件入力されています。
これら80種の指標と収穫時期の関係をSVMで学習して当年の収穫時期の予測に活用できないかを試しており、以下を記述したところ、
得られるtest_dataの回答がすべて同じクラスになってしまいます。

```

### 該当のソースコード

```ここに言語名を入力
python3

import pandas as pd
import numpy as np
from sklearn import svm, metrics, cross_validation
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from mlxtend.plotting import plot_decision_regions

filename = "gloth.xlsx"
input_sheet_name = "input"
answer_sheet_name = "answer"

input_book = pd.read_excel(filename, sheet_name=input_sheet_name)
answer_book = pd.read_excel(filename, sheet_name=answer_sheet_name)

new_input_book = input_book.drop(0, axis=0)　#inputシートの0行目はデータ収集中のため、除外していいます。
new_answer_book = answer_book.drop(0, axis=0)　#answerシートの0行目はデータ未調査で空欄のため、除外しています。

xlsx_data = new_input_book[["MAX_TEM","MIN_TEM"・・・,"SEIIKU_1","SEIIKU_2"]] #指標はinputシートに80種程度入力しています
xlsx_label = new_answer_book[["Group"]] #収穫時期は多クラス分類してanswerシートに入力しています

train_data, test_data, train_label, test_label = cross_validation.train_test_split(xlsx_data, xlsx_label,test_size=0.2)

clf = svm.SVC(kernel='rbf', gamma=1/80, C=10.0)
clf.fit(train_data, train_label.values.ravel())

pre = clf.predict(test_data)

ac_score = metrics.accuracy_score(test_label, pre)
print("正解率＝", ac_score)

```

### 試したこと

print(pre)
でtest_dataの予測結果を確認したところ、いずれのデータの予測もすべて「1」として分類されているため、
正解率は16～20％と大変低くなってしまいます。

### 補足情報（FW/ツールのバージョンなど）

プログラムは、jupyter notebookで記述しています。
機械学習の勉強を始めて1か月程度の素人です。
不足している情報がありましたら
お伝えしたいと思いますので、よろしくお願いします。

Accepted Answer

もう解決していますが…

http://scikit-learn.org/stable/modules/svm.html

sklearnのSVCはOne-vs-Oneで実装されていませんか？

---

簡単なIrisに対してのコード。

SVCをもうすでに使っているのならマルチクラスを分類できない理由は特にないように思いましたが…

```python
import numpy as np

from sklearn.datasets import load_iris

from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import accuracy_score
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import RandomizedSearchCV

from sklearn.svm import SVC
from sklearn.multiclass import OneVsRestClassifier, OneVsOneClassifier
from sklearn.multioutput import MultiOutputClassifier

def load(fonehot=False):
    data = load_iris()

    x = data['data']
    y = data['target']
    hs = y

    if fonehot:
        en = OneHotEncoder()
        y = en.fit_transform(y.reshape(-1, 1)).toarray()

    return x, y, hs

def get_SVC():
    clf = SVC()
    param_grid = {'kernel': ['rbf', 'linear'],
                  'C': np.logspace(-10, 1, 1000),
                  'gamma': np.logspace(-10, 1, 1000)}
    clf = RandomizedSearchCV(clf, param_grid, cv=5, n_iter=100, random_state=2018)
    return clf

def get_OvR():
    clf = SVC()
    clf = OneVsRestClassifier(clf)
    param_grid = {'estimator__kernel': ['rbf', 'linear'],
                  'estimator__C': np.logspace(-10, 1, 1000),
                  'estimator__gamma': np.logspace(-10, 1, 1000)}
    clf = RandomizedSearchCV(clf, param_grid, cv=5, n_iter=100, random_state=2018)
    return  clf

def get_OvO():
    clf = SVC()
    clf = OneVsOneClassifier(clf)
    param_grid = {'estimator__kernel': ['rbf', 'linear'],
                  'estimator__C': np.logspace(-10, 1, 1000),
                  'estimator__gamma': np.logspace(-10, 1, 1000)}
    clf = RandomizedSearchCV(clf, param_grid, cv=5, n_iter=100, random_state=2018)
    return  clf

def get_OneHot():
    clf = SVC()
    clf = MultiOutputClassifier(clf)
    param_grid = {'estimator__kernel': ['rbf', 'linear'],
                  'estimator__C': np.logspace(-10, 1, 1000),
                  'estimator__gamma': np.logspace(-10, 1, 1000)}
    clf = RandomizedSearchCV(clf, param_grid, cv=5, n_iter=100, random_state=2018)
    return  clf

def CV(get_clf, x, y, hs, n_splits=3):
    kf = StratifiedKFold(n_splits=n_splits, shuffle=True, random_state=2018)
    s_s = []
    pss = []
    for tr, ts in kf.split(x, hs):
        x_ = x[tr]
        y_ = y[tr]
        px = x[ts]
        py = y[ts]
        clf = get_clf()
        clf.fit(x_, y_)
        s_ = accuracy_score(y_, clf.predict(x_))
        ps = accuracy_score(py, clf.predict(px))
        s_s.append(s_)
        pss.append(ps)
    print('train: {0:7.4f} {1:7.4f}'.format(np.mean(s_s), np.std(s_s)))
    print('test:  {0:7.4f} {1:7.4f}'.format(np.mean(pss), np.std(pss)))

if __name__ == '__main__':
    print('SVC(Implemented with One-vs-one)')
    CV(get_SVC, *load())
    print('OneVsRest')
    CV(get_OvR, *load())
    print('OneVsOne')
    CV(get_OvO, *load())
    print('OneHot')
    CV(get_OneHot, *load(fonehot=True))
```

---

追記

IrisのXに2変数を使って平面上に射影したときの境界線。

広がったガウシアンの場合(gamma=0.000001)
![広がったガウシアン](0ad73d4bbe9e4c92c1f070ada5abba0c.png)

局在したガウシアンの場合(gamma=10000.)
![局在したガウシアン](36a1f12aca19dd741317073a61149f14.png)

CVしたガウシアンの場合
![最適化したガウシアン](2cd5ffe22ffcfa5b089ce81be2420892.png)

Answer

svmは多クラス識別ができないと記憶していて、その結果ではないかと思います。
svmを使った多クラス識別をするには1対多分類法と呼ばれるあるクラスとそれ以外のクラスという2値分類を複数回実施するものがいいかと思います。具体的にはクラス1とそれ以外の分類を実施します。次にクラス1以外と識別されたデータを対象にクラス2とそれ以外の分類を実施します。以後同様の処理を全ての分類が終わるまで実施します。
もしかすると、svmで多クラス識別する関数が既に実装されているのであれば、それを使ったほうがいいと思いますが、とりあえず、上記を試すことを検討してはいかがでしょうか

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問