質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

37535閲覧

機械学習 モデル エラー Unknown label type: 'continuous-multioutput'

Masakuni

総合スコア14

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2019/05/30 01:40

編集2019/05/30 02:25

機械学習の様々なモデルを試す中で決定木のモデルでエラーが出ており原因がわかりません。
ナイーブベイズ、ロジスティック回帰、ランダムフォレスト、knn,SVC,lightGBMなどはうまくいっており、aucスコアを得られています。
原因を解明して、エラーが出ているモデルでの予測をすることを目指しています。
よろしくお願いします。

# 決定木 from sklearn.tree import DecisionTreeClassifier clf = DecisionTreeClassifier(random_state=0) clf = clf.fit(X_train, y_train) pred = clf.predict(X_test) fpr, tpr, thresholds = metrics.roc_curve(y_test, pred, pos_label=1) auc=metrics.auc(fpr, tpr) auc #エラーコード ValueError Traceback (most recent call last) <ipython-input-8-f4fca059e899> in <module> 2 from sklearn.tree import DecisionTreeClassifier 3 clf = DecisionTreeClassifier(random_state=0) ----> 4 clf = clf.fit(X_train, y_train) 5 pred = clf.predict(X_test) 6 fpr, tpr, thresholds = metrics.roc_curve(y_test, pred, pos_label=1) ValueError: Unknown label type: 'continuous-multioutput'

追記です

features,targetはDataFrameでfeaturesが27000×33,target(中身は0か1)27000×1で全て数字です

featuresの中身はこのようなものです。見にくくて申し訳ありません。
features,targetの中身にNaNなどは入っていません。
features,targetを分割してX_train, X_test, y_train, y_testとしています。

credit age payment_9 payment_8 payment_7 payment_6 payment_5 payment_4 claim_9 claim_8 claim_7 claim_6 claim_5 claim_4 advance_9 advance_8 advance_7 advance_6 advance_5 advance_4 pay_condition_rate9 pay_condition_rate8 pay_condition_rate7 pay_condition_rate6 pay_condition_rate5 pay_late pay_late_count credit_age claim9 claim8 claim7 claim6 claim5
0 20000 24 2 2 -1 -1 -2 -2 3913 3102 689 0 0 0 0.0 0.03445 0.0 0.0 0.0 0 0.1551 0.0 0.0 0.0 0.0 1 4.0 833.333333 0.19565 0.1551 0.03445 0.0 0.0

X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=1234)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hayataka2049

2019/05/30 01:56

X_trainとy_trainがそれぞれどんなデータなのかの情報が必要です。オブジェクトの型,データの型,shape,具体的な一部のデータ例を示していただけると回答しやすいです。
Masakuni

2019/05/30 02:30

ご指摘ありがとうございます。 ブログ拝見しております。 Pipelineの記事が特に参考になりました。 次のステップでPCAやパラメータサーチを行おうと考えていました。 ご本人にご指摘頂けて感動しています。
hayataka2049

2019/05/30 04:10

targetの方も見せてください。
guest

回答1

0

ベストアンサー

y_trainおよびtargetが本当に意図したものになっているかどうか、確認する必要がありそうです。

Unknown label type:のエラーはfitの際のyに問題があることを表します。

continuousというのは浮動小数点値が含まれていることを、multioutputというのは27000×3など、意図しないshapeになっている可能性を表します。

また、DataFrameSeriesなどのpandasのオブジェクトに、sklearnは完全には対応していません。

問題ないケースもありますが、どうしてもうまくいかないときはdf.valuesなどでnumpy配列としての値を取り出して渡してあげるとうまくいくことがままあります。

投稿2019/05/30 04:27

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問