質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.53%

  • Python

    7884questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 3.x

    6296questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

scikit-learn(svm)のエラーについて

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 6,117

質問内容

python、機械学習共に初学者です。
自分で適当なcsvファイルをデータセットとして作成し
下記のソースコードを実行したところ、下記のようなエラーが発生しました。

その後、いくつか手を加えて見たのですが
エラーメッセージが下記試したこと1エラー、試したこと2エラーのように変化するだけで
最後まで実行できませんでした。

これはcsvの中身が原因なのでしょうか?
それともソースコードのいずれかに誤りがあるのでしょうか?
何をどのように修正すれば実行可能になるか教えて頂きたいです。
また、もしよろしければそれぞれのエラーメッセージの意味も教えて頂ければと思います。
お手数をおかけいたしますが、何とぞご教授頂ければと思います。

testx.csvの中身

0.2
-0.03
0.01

(取り込み後のprint出力)
[[ 0.2  -0.03  0.01]]

testy.csvの中身

0.01
0.01
0.01

(取り込み後のprint出力)
[[ 0.01  0.01  0.01]]

該当のソースコード

from sklearn import svm
import numpy as np

def main():

    test_x = np.loadtxt( "testx.csv", delimiter=","  )
    test_y = np.loadtxt( "testy.csv", delimiter=","  )

    test_x = test_x.reshape(1,-1)
    test_y = test_y.reshape(1,-1)

    print(test_y)

    clf = svm.SVC(gamma=0.001, C=100.)
    clf.fit(test_x,test_y)
    print(clf)

if __name__ == "__main__":
    main()

エラーメッセージ

ValueError: bad input shape (1, 3)

試したこと1

test_y.reshape(1,-1)が不要なのかと思い、この行を削除したところ、エラーメッセージが下記のように変化しました。

  • 試したこと1による変化後のエラーメッセージ1
    Found input variables with inconsistent numbers of samples: [1, 3]

試したこと2

test_x.csvが1次元なのがそもそもおかしいのかと思い、下記のようなtest_x_csvに変更し
test_x.reshape(1,-1)およびtest_y.reshape(1,-1)を削除したところ、エラーメッセージが下記のように変化しました。

変更後のtest_x_csvの中身
1,0.2
2,-0.03
3,0.01

(取り込み後のprint出力)
[[ 1.    0.2 ]
[ 2.   -0.03]
[ 3.    0.01]]

  • 試したこと2による変化後のエラーメッセージ2
    ValueError: Unknown label type: 'continuous'

補足情報(使用環境)

Python 3.6.0 |Anaconda 4.3.1 (64-bit)|
jupyter notebook 4.3.1

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

やりたいこと(何をどうしたい)が不明ですが、分類元のデータの個数とその分類結果の個数を合わせる必要があります。

たとえば以下のような感じです。

from sklearn import svm,datasets
import numpy as np

# x,y座標を第1~4象限に分類する
data = np.array([[1,1],[-1,1],[-1,-1],[1,-1]]) # x,y座標の組
target = np.array([1,2,3,4])                   # 分類先 第1~4象限
print(data)
print(target)

clf = svm.SVC(gamma=0.001, C=100.)
clf.fit(data,target) # 学習

p_data = np.array([[10,10]])  # x,y = (10,10)
c = clf.predict(p_data) # 予測
print(c) # 第一象限

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/04/02 16:48

    ご回答ありがとうございます。
    やりたいことを明記しておらず、よくわからない質問をしてしまって申し訳ありません。

    今回やりたいことは、ある入力値を入力した際に
    ノイズを含んだ形で出力される出力値のノイズを除去し
    入力値に近づけた値を出力値として出力させる
    デジタルフィルタのようなものを作成することです。

    なので識別ではなく回帰をしたいのでsvmではなく、svrで試して見るべきかと思いましたが
    まずは識別にかけてみるとどうなるのか試してみたかったので、svmで試してみました。

    そしてご教授いたただいたソースコードを下記のように変更しましたら
    次のようなエラー文言が出てきました。

    【変更部分】
    data = np.array([[0.1,0.01],[0.2,-0.05],[0.3,2.06],[0.4,2.41]])
    target = np.array([0.01,0.01,2.01,2.01])

    ※data = (時間,ノイズを含んだ出力値)
    ※target = (入力値)

    【実行結果(エラー文言)
    ValueError: Unknown label type: 'continuous'

    自分のやりたいことにおいて、dataやtargetとして小数点を含んだ値が考えられるのですが
    targetの中身は全て整数でなければいけない、ということでしょうか?
    上記のような制約であれば、入出力を共に等倍し
    targetの小数点をなくせばよいという理解でよろしいのでしょうか?

    また、もし可能ならばdata = [出力値]、target = [入力値]として
    1次元同士による学習で精度の良いノイズに対するデジタルフィルタのようなものを作成できる
    手法やライブラリを探しているのですが、そういったものはありますでしょうか?

    キャンセル

  • 2017/04/02 18:51

    >targetの中身は全て整数でなければいけない、ということでしょうか?
    エラー内容からそのとおりだと思います。
    >手法やライブラリを探しているのですが、そういったものはありますでしょうか?
    については分かりません。

    キャンセル

  • 2017/04/02 22:18

    ご回答ありがとうございます。
    内容、承知しました。
    こちらの回答をベストアンサーとして本質問をクローズさせて頂きます。
    ご回答ありがとうございました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.53%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python

    7884questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 3.x

    6296questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。