scikit-learn(svm)のエラーについて

###質問内容

python、機械学習共に初学者です。
自分で適当なcsvファイルをデータセットとして作成し
下記のソースコードを実行したところ、下記のようなエラーが発生しました。

その後、いくつか手を加えて見たのですが
エラーメッセージが下記試したこと1エラー、試したこと2エラーのように変化するだけで
最後まで実行できませんでした。

これはcsvの中身が原因なのでしょうか？
それともソースコードのいずれかに誤りがあるのでしょうか？
何をどのように修正すれば実行可能になるか教えて頂きたいです。
また、もしよろしければそれぞれのエラーメッセージの意味も教えて頂ければと思います。
お手数をおかけいたしますが、何とぞご教授頂ければと思います。

###testx.csvの中身
0.2
-0.03
0.01

(取り込み後のprint出力)
[[ 0.2 -0.03 0.01]]

###testy.csvの中身
0.01
0.01
0.01

(取り込み後のprint出力)
[[ 0.01 0.01 0.01]]

###該当のソースコード

from sklearn import svm
import numpy as np

def main():

    test_x = np.loadtxt( "testx.csv", delimiter=","  )
    test_y = np.loadtxt( "testy.csv", delimiter=","  )
    
    test_x = test_x.reshape(1,-1)
    test_y = test_y.reshape(1,-1)
    
    print(test_y)

    clf = svm.SVC(gamma=0.001, C=100.)
    clf.fit(test_x,test_y)
    print(clf)

if __name__ == "__main__":
    main()

###エラーメッセージ

ValueError: bad input shape (1, 3)

###試したこと1
test_y.reshape(1,-1)が不要なのかと思い、この行を削除したところ、エラーメッセージが下記のように変化しました。

試したこと1による変化後のエラーメッセージ1

Found input variables with inconsistent numbers of samples: [1, 3]

###試したこと2
test_x.csvが1次元なのがそもそもおかしいのかと思い、下記のようなtest_x_csvに変更し
test_x.reshape(1,-1)およびtest_y.reshape(1,-1)を削除したところ、エラーメッセージが下記のように変化しました。

変更後のtest_x_csvの中身
1,0.2
2,-0.03
3,0.01

(取り込み後のprint出力)
[[ 1. 0.2 ]
[ 2. -0.03]
[ 3. 0.01]]

試したこと2による変化後のエラーメッセージ2

ValueError: Unknown label type: 'continuous'

###補足情報(使用環境)
Python 3.6.0 |Anaconda 4.3.1 (64-bit)|
jupyter notebook 4.3.1

行動規範の内容に同意します

回答1件

ベストアンサー

やりたいこと（何をどうしたい）が不明ですが、分類元のデータの個数とその分類結果の個数を合わせる必要があります。

たとえば以下のような感じです。

Python
1from sklearn import svm,datasets
2import numpy as np
3
4# x,y座標を第1～4象限に分類する
5data = np.array([[1,1],[-1,1],[-1,-1],[1,-1]]) # x,y座標の組
6target = np.array([1,2,3,4])                   # 分類先 第1～4象限
7print(data)
8print(target)
9
10clf = svm.SVC(gamma=0.001, C=100.)
11clf.fit(data,target) # 学習
12
13p_data = np.array([[10,10]])  # x,y = (10,10)
14c = clf.predict(p_data) # 予測
15print(c) # 第一象限

投稿2017/04/02 02:06

can110

総合スコア38262

python_newbie

2017/04/02 07:48

ご回答ありがとうございます。やりたいことを明記しておらず、よくわからない質問をしてしまって申し訳ありません。今回やりたいことは、ある入力値を入力した際にノイズを含んだ形で出力される出力値のノイズを除去し入力値に近づけた値を出力値として出力させるデジタルフィルタのようなものを作成することです。なので識別ではなく回帰をしたいのでsvmではなく、svrで試して見るべきかと思いましたがまずは識別にかけてみるとどうなるのか試してみたかったので、svmで試してみました。そしてご教授いたただいたソースコードを下記のように変更しましたら次のようなエラー文言が出てきました。【変更部分】 data = np.array([[0.1,0.01],[0.2,-0.05],[0.3,2.06],[0.4,2.41]]) target = np.array([0.01,0.01,2.01,2.01]) ※data = (時間,ノイズを含んだ出力値) ※target = (入力値) 【実行結果（エラー文言） ValueError: Unknown label type: 'continuous' 自分のやりたいことにおいて、dataやtargetとして小数点を含んだ値が考えられるのですが targetの中身は全て整数でなければいけない、ということでしょうか？上記のような制約であれば、入出力を共に等倍し targetの小数点をなくせばよいという理解でよろしいのでしょうか？また、もし可能ならばdata = [出力値]、target = [入力値]として 1次元同士による学習で精度の良いノイズに対するデジタルフィルタのようなものを作成できる手法やライブラリを探しているのですが、そういったものはありますでしょうか？