回答編集履歴
5
修正
test
CHANGED
@@ -110,6 +110,8 @@
|
|
110
110
|
|
111
111
|
> None の場合、すべての葉が「純粋な状態 (pure)になる」か「所属するサンプル数が min_samples_split 未満」になるまで、分岐します。
|
112
112
|
|
113
|
+
純粋な状態というのはその葉に属するサンプルが全部1つのクラスに属する場合です。
|
114
|
+
|
113
115
|
|
114
116
|
|
115
117
|
----
|
4
修正
test
CHANGED
@@ -82,7 +82,7 @@
|
|
82
82
|
|
83
83
|
そのように指定した場合、決定木を作成する際は深さ3までは条件分岐を行います。
|
84
84
|
|
85
|
-
|
85
|
+
結果として、条件分岐してもしなくても変わらなかったケースは出てきます。
|
86
86
|
|
87
87
|
|
88
88
|
|
3
修正
test
CHANGED
@@ -65,3 +65,55 @@
|
|
65
65
|
|
66
66
|
|
67
67
|
![イメージ説明](1d99e31c7726f7521ab73ae3b2286ff6.png)
|
68
|
+
|
69
|
+
|
70
|
+
|
71
|
+
## 追記
|
72
|
+
|
73
|
+
|
74
|
+
|
75
|
+
> この場合分岐をしなくてもクラス1に分類されると思うのですが、なぜわざわざ分岐をさせていくのでしょうか?
|
76
|
+
|
77
|
+
|
78
|
+
|
79
|
+
「分岐をしなくてもクラス1で分類されることには変わらななかったので、分岐しなくてもよかったのではないか」というのは結果論です。
|
80
|
+
|
81
|
+
質問の決定木を DecisionTreeClassifier で作成した際に max_depth=3 で深さ (条件分岐の数) を指定しませんでいしたか?
|
82
|
+
|
83
|
+
そのように指定した場合、決定木を作成する際は深さ3までは条件分岐を行います。
|
84
|
+
|
85
|
+
その結果、条件分岐してもしなくても結果的には変わらなかったケースは出てきますが、それは結果論です。
|
86
|
+
|
87
|
+
|
88
|
+
|
89
|
+
[決定木分析についてざっくりまとめ_理論編 | Developers.IO](https://dev.classmethod.jp/articles/2017ad_20171211_dt-2/)
|
90
|
+
|
91
|
+
|
92
|
+
|
93
|
+
※ ちなみに一番右端のノードが深さ2で止まっているのは、所属するサンプルが全部同じクラスの場合はそこで分岐をストップするという処理があるためです。
|
94
|
+
|
95
|
+
|
96
|
+
|
97
|
+
[sklearn.tree.DecisionTreeClassifier — scikit-learn 0.23.1 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html)
|
98
|
+
|
99
|
+
|
100
|
+
|
101
|
+
> max_depth
|
102
|
+
|
103
|
+
> The maximum depth of the tree. If None, then nodes are expanded until all leaves are pure or until all leaves contain less than min_samples_split samples.
|
104
|
+
|
105
|
+
|
106
|
+
|
107
|
+
訳
|
108
|
+
|
109
|
+
> 木の最大の深さ
|
110
|
+
|
111
|
+
> None の場合、すべての葉が「純粋な状態 (pure)になる」か「所属するサンプル数が min_samples_split 未満」になるまで、分岐します。
|
112
|
+
|
113
|
+
|
114
|
+
|
115
|
+
----
|
116
|
+
|
117
|
+
|
118
|
+
|
119
|
+
ちなみに木、葉、ノード、深さといった単語はグラフ理論の[木](https://ja.wikipedia.org/wiki/%E6%9C%A8%E6%A7%8B%E9%80%A0_%28%E3%83%87%E3%83%BC%E3%82%BF%E6%A7%8B%E9%80%A0%29) から来ています。
|
2
修正
test
CHANGED
@@ -57,3 +57,11 @@
|
|
57
57
|
|
58
58
|
|
59
59
|
![イメージ説明](85565c35880206676f79d22e4d15e71b.png)
|
60
|
+
|
61
|
+
|
62
|
+
|
63
|
+
## 追記
|
64
|
+
|
65
|
+
|
66
|
+
|
67
|
+
![イメージ説明](1d99e31c7726f7521ab73ae3b2286ff6.png)
|
1
修正
test
CHANGED
@@ -1,6 +1,10 @@
|
|
1
1
|
A, B, C の3クラス分類としたとき、value はそのノードが表す領域内の各クラスのサンプル数を表しています。
|
2
2
|
|
3
3
|
例えば、value=[10, 30, 50] であった場合、その領域はAが10個、Bが30個、Cが50個あり、ラベルCのサンプルが最も多いので、多数決でそのノードはクラスCと判定します。
|
4
|
+
|
5
|
+
|
6
|
+
|
7
|
+
![イメージ説明](17a0426e7f1de70a845b0e57d4265863.png)
|
4
8
|
|
5
9
|
|
6
10
|
|