ValueError: Number of features of the model must match the input. scikit-learnで決定木を実装したいがエラー

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 183

Quad

score 12

前提・実現したいこと

scikit-learnを使って決定木を実装しています。
可視化しようとdtreevizのコードを書いていたらエラーが発生しました。
dtreevizは関係ないかもしれません。

実行結果・エラーメッセージ

0.7368421052631579
0.9642857142857143
       変数       重要度
0      食料  0.000000
1      住居  0.000000
2   水道光熱費  0.183482
3  家具家事用品  0.000000
4      衣類  0.095694
5    保険医療  0.000000
6    交通通信  0.000000
7      教育  0.000000
8    教養娯楽  0.720824
9     諸雑費  0.000000
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-104-2d435d3c4d5a> in <module>()
     36      target_name='大都市圏分類',
     37      feature_names=X_train.columns,
---> 38      class_names=[str(i) for i in class_names]
     39     )  
     40 

4 frames
/usr/local/lib/python3.6/dist-packages/sklearn/tree/tree.py in _validate_X_predict(self, X, check_input)
    400                              "match the input. Model n_features is %s and "
    401                              "input n_features is %s "
--> 402                              % (self.n_features_, n_features))
    403 
    404         return X

ValueError: Number of features of the model must match the input. Model n_features is 4 and input n_features is 10 

該当のソースコード

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn import tree
from dtreeviz.trees import dtreeviz
data = pd.read_csv('consumerPrices_tree.csv')

X = data.drop(['都道府県', '大都市圏分類'], axis=1)
Y = data['大都市圏分類']

from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(max_depth=3, random_state=0)
model.fit(X, Y)
model.predict(X)

predicted = pd.DataFrame({'Predicted':model.predict(X)})
data_predicted = pd.concat([data, predicted], axis =1)
sum(model.predict(X)==Y)/len(Y)

X_train,X_test,Y_train,Y_test = train_test_split(X, Y,random_state=0, test_size=0.4)

model = DecisionTreeClassifier(max_depth=3, random_state=0)
model.fit(X_train, Y_train)
model.predict(X_train)
from sklearn import metrics
print(metrics.accuracy_score(Y_test, model.predict(X_test)))
print(metrics.accuracy_score(Y_train, model.predict(X_train)))

importance = pd.DataFrame({ '変数':X.columns, '重要度':model.feature_importances_})
print(importance)

class_names = Y_train.unique().tolist()
viz = dtreeviz(
    classifier, 
     X_train,
     Y_train,
     target_name='大都市圏分類',
     feature_names=X_train.columns,
     class_names=[str(i) for i in class_names]
    )  

display(viz)


csvです。他のサイトが公開しているデータなので一応伏せています。
ここからダウンロードできます。

都道府県,食料,住居,水道光熱費,家具家事用品,衣類,保険医療,交通通信,教育,教養娯楽,諸雑費,大都市圏分類

北 海 道,98.7,82.6,116.3,99.3,103.8,100.2,99.5,93.2,97.1,100.9,1
......
......

試したこと

モデルの特徴が4個というのがよく分かりません。
なぜ10個ではないのでしょうか?

補足情報(FW/ツールのバージョンなど)

google colaboratory (python3)

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • hayataka2049

    2019/06/22 17:34

    このままだと回答しづらいので、エラーメッセージの全体、省略なしのcsvを示していただけないでしょうか。

    キャンセル

  • Quad

    2019/06/22 17:42

    本当に申し訳ありません。
    今パソコンが触れない状態です。
    2時間後には触れるはずなので使えるようになり次第修正します。

    キャンセル

  • Quad

    2019/06/22 19:25

    修正しました。

    キャンセル

回答 1

checkベストアンサー

+1

取り急ぎコードを見てみましたが、

model = DecisionTreeClassifier(max_depth=3, random_state=0)
# 中略

viz = dtreeviz(
    classifier, 
     X_train,
     Y_train,
     target_name='大都市圏分類',
     feature_names=X_train.columns,
     class_names=[str(i) for i in class_names]
    )  

modelとして決定木を定義しているのに、下でclassifierを渡しているので、通常ならclassifierという変数がないというエラーになるはずです。

Jupyterで実行しているようなので、以前に定義したclassifierが残った状態でそれを参照しているのではないでしょうか。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/06/22 19:35

    なるほど!
    少し前にアヤメで試していたclassifierが残っていました。
    ありがとうございます。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.22%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる