決定木分析　エラー　ValueError: Unknown label type: 'continuous

Question

読み込んだcsvファイルを決定木分析にかけた際のエラーに関する質問です。

以下に示すようなtest.csvファイルがあり、
|A|B|C|
|:--:|:--:|:--:|
|10|1.5|0.01|
|20|2.0|0.02|
|30|2.5|0.03|

説明変数A,B、目的変数Cとして決定木分析をしようと思っています。

```
import pandas as pd
import os
import sys
import sklearn

csv_filename = 'test.csv'
df_data = pd.read_csv(csv_filename, encoding="utf-8_sig")

X_tree = pd.DataFrame(df_data.drop("C",axis=1))
Y_tree = pd.DataFrame(df_data["C"])

from sklearn.model_selection import train_test_split
X_train_tree, X_test_tree, Y_train_tree, Y_test_tree = train_test_split(X_tree, Y_tree, test_size = 0.33)

from sklearn import tree
clf = tree.DecisionTreeClassifier()
clf.fit(X_train_tree, Y_train_tree)

```
上記のコードを実行したところ、以下のようなエラーが出ました。
```
Traceback (most recent call last):
  File "young_2.py", line 17, in <module>
    clf.fit(X_train_tree, Y_train_tree) 
  File "C:\Users\ssait\Anaconda3\envs\py36\lib\site-packages\sklearn	ree	ree.py", line 816, in fit
    X_idx_sorted=X_idx_sorted)
  File "C:\Users\ssait\Anaconda3\envs\py36\lib\site-packages\sklearn	ree	ree.py", line 154, in fit
    check_classification_targets(y)
  File "C:\Users\ssait\Anaconda3\envs\py36\lib\site-packages\sklearn\utils\multiclass.py", line 169, in check_classification_targets
    raise ValueError("Unknown label type: %r" % y_type)
ValueError: Unknown label type: 'continuous'
```
他サイトで、“continuousというのは浮動小数点値が含まれている”と書いてありましたが、対処方法がどうしてもわかりません。
よろしくお願い致します。

Accepted Answer

目的変数が名義尺度または順序尺度の場合は、`LabelEncoder`を用いてラベルに変換してください。
（順序尺度は微妙ですが、ここでは順序を考慮せず扱うこととします）

```python
>>> from sklearn.preprocessing import LabelEncoder
>>> le = LabelEncoder()
>>> le.fit_transform([0.01, 0.02, 0.03])
array([0, 1, 2])
```

間隔尺度または比例尺度の場合は、回帰として解いた方が良いかと思います。この場合は、`DecisionTreeClassifier`ではなく`DecisionTreeRegressor`を使ってください。

```python
>>> from sklearn.tree import DecisionTreeRegressor
>>> dtr = DecisionTreeRegressor()
>>> dtr.fit(X, y)
```

[sklearn.preprocessing.LabelEncoder — scikit-learn 0.22 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html)
[sklearn.tree.DecisionTreeRegressor — scikit-learn 0.22 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html)

A	B	C
10	1.5	0.01
20	2.0	0.02
30	2.5	0.03

関連した質問