前提
楽天市場のレビューアーの特徴からスパムを検出するAIを作成しています。
決定木分析を行っており、訓練データで学習をし終えましたが結果を予測することができていません。
実現したいこと
ここに実現したいことを箇条書きで書いてください。
- dtree.predict()を使えるようにする。
発生している問題・エラーメッセージ
ValueError: X has 4 features, but DecisionTreeClassifier is expecting 3 features as input.
該当のソースコード
python
1from sklearn import tree 2from dtreeviz.trees import * 3import dtreeviz 4import graphviz 5 6df_past = pd.read_csv(r"C:\Users\Yasu\Documents\情報科学特別演習\csv\スパム検出済み.csv") 7df_predict = pd.read_csv(r"C:\Users\Yasu\Documents\情報科学特別演習\csv\predict_data.csv") 8 9X_name = ["reputation","age","sex"]#説明変数 10y_name = "spam"#目的変数 11X = df_past[X_name] 12X = X.values 13y = df_past[y_name] 14 15dtree = tree.DecisionTreeClassifier(max_depth=3) 16dtree.fit(X,y) 17 18m = dtreeviz.model(dtree,X,y, 19 target_name = y_name, 20 feature_names = X_name, 21 class_names = ["not spam","spam"]) 22 23m_view = m.view() 24dtree.predict(df_predict) 25 26
データについて
試したこと
予測したいデータの欠損値をドロップさせましたが改善できませんでした。
補足情報(FW/ツールのバージョンなど)
windows11
IDLE
回答1件
あなたの回答
tips
プレビュー