ValueError: The number of classes has to be greater than one; got 1　のエラー

ValueError: The number of classes has to be greater than one; got 1　とエラーが出ました。

# coding:utf-8
from sklearn import svm, cross_validation
from sklearn.metrics import classification_report, accuracy_score
import sys
from mfcc import *
import glob
import csv
import random
import numpy as np
import os
from sklearn.model_selection import train_test_split

if __name__ == "__main__":
        train_label = np.array([])
        test_label = np.array([])

        nfft = 2048  
        nceps = 12  
        train_data = np.empty((0, 12), float)
        test_data = np.empty((0, 12), float)

        basedir = '/sound_animal/sounds'
        files = glob.glob(os.path.join(basedir, '*.wav'))
        for file_name in files:
                feature = get_feature(file_name, nfft, nceps)
                if len(train_data) == 0:
                    train_data = feature
                else:
                    train_data = np.vstack((train_data, feature))

                pattern = r"dog"
                file = os.path.basename(file_name)
                match = re.match(pattern, file)
                if match:
                    train_label = np.append(train_label, 0)
                else:
                    train_label = np.append(train_label, 1)


                if len(test_data) == 0:
                    test_data = feature
                else:
                    test_data = np.vstack((test_data, feature))

                if match:
                   test_label = np.append(test_label,0)
                else:
                   test_label = np.append(test_label,1)

        feature_train_data = np.hstack((train_label.reshape(len(train_label), 1), train_data))
        feature_test_data = np.hstack((test_label.reshape(len(test_label), 1), test_data))

        with open("feature_data/train_data.txt", "w") as f:
           writer = csv.writer(f)
           writer.writerows(feature_train_data)
        with open("feature_data/test_data.txt", "w") as f:
           writer = csv.writer(f)
           writer.writerows(feature_train_data)

        X_train, X_test, y_train, y_test = train_test_split(train_data, test_data, test_size=0.30, random_state=1)
        clf = svm.SVC(kernel='linear', C=1).fit(X_train, y_train)
        score = clf.score(X_test, y_test)

        print(score)

とコードを書きました。このコードを実行すると、ValueError: The number of classes has to be greater than one; got 1　とエラーが出ました。Traceback では、

 Traceback (most recent call last):
  File "sound.py", line 70, in <module>
    clf = svm.SVC(kernel='linear', C=1).fit(train_data, train_label)
  File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/svm/base.py", line 152, in fit
    y = self._validate_targets(y)
  File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/svm/base.py", line 526, in _validate_targets
    % len(cls))
ValueError: The number of classes has to be greater than one; got 1

の部分がおかしいと出ました。print(len(train_data))とprint(len(train_label))の結果を出力すると、両方とも２０２と出ました。なのでエラー文にある通り１より大きいと思うのですが。。。どのように直せば良いのでしょうか？

退会済みユーザー

2017/11/07 12:59

生のエラーの情報（何行目のどの関数でエラーが起きたか、その直前は何を処理したか）があると回答が得られやすいと思います。

退会済みユーザー

2017/11/07 13:05

Traceback全体の情報を追加しました。もしお分かりでしたら、よろしくお願いいたします

WathMorks

2017/11/07 22:45 編集

コメントを回答に移動しました。

行動規範の内容に同意します

回答2件

(1)traln_labelの中身を確認しましょう。

(2)train_test_splitに正しい引数を与えましょう。具体的には、test_dataをtrain_labelに変更しましょう。

投稿2017/11/07 22:44

WathMorks

総合スコア1582

ベストアンサー

以前のmiki00さんのSVMに関する投稿に対する回答例の症状ではないですか？

動かしていないので何とも言えませんが、以前の同じコードに関する投稿でy__samaさんが書いてくれていますね。

y__samaさんの回答抜粋)

ただし、svm.fitはlabelが一種類だとエラーを吐きます。

The number of classes has to be greater than one; got 1
ちゃんと二種類以上の教師データを用意しないとバリデートできません。

同じようなことはstackoverflowのSebastianさんも書いていますね。

セバスチャンさんの回答)

今現在の状況で、たぶんデータセットを1つしか指定していないんでしょう。エラーメッセージにも書いてあるけど、最低でも２つはデータセットに必要なんだよ。例えば、データセットのラベルでnp.unique(y)とやればユニークなラベルがいくつ割り振られているかわかるよね。

だそうですので、print(np.unique(test_label))とすればすぐに確認できますね。

SVMは複数の種類のデータがあるなかで、どこで種類に分けるの？という線引きアルゴリズムだと思いますので、ラベルが複数いるというのは直観でも分かりますね。

投稿2017/11/07 21:51

退会済みユーザー

総合スコア0

退会済みユーザー

2017/11/08 08:51

ありがとうございます。ラベルは、if match: train_label = np.append(train_label, 0) else: train_label = np.append(train_label, 1) の部分などで０と１の２種類用意していると思っていたのですが、間違っていますか？

退会済みユーザー

2017/11/08 10:04

match = re.match(pattern, file)でif match:と振っていますが、この時の中身の数ではなく種類がもしかしたら一種類だけはいっていないか（常にmatch==Trueのような処理がされているのか）な？と思っています。手元に同じサンプルがあれば動かしながら確認できるのですが...

退会済みユーザー

2017/11/08 11:53

ありがとうございます。全部Trueになっていて、修正したら動きました！

行動規範の内容に同意します

あなたの回答