回答編集履歴
6
追記
test
CHANGED
@@ -6,7 +6,7 @@
|
|
6
6
|
|
7
7
|
|
8
8
|
|
9
|
-
全体で8GBということは木1つあたり40MBほど使っていることになる訳ですが、決定木は最大で1(2^0)+2+4+8+16+32+...+524288(2^19)=1048575の中間ノードを保持しないといけなくなります(木の深さの計算方法の絡みで厳密な数字が間違っている可能性はありますが、概数ではこんなものです。また、あくまでも「最大」の数字で、もっと効率よく保持できれば当然その分だけ減ります。今回くらいデータ量が多いと、ほぼこれくらい要ると思いますが)。そしたらノード1つで数byte~数十byteくらいの感覚なので、まあそんなもんじゃね? ということです。
|
9
|
+
全体で8GBということは木1つあたり40MBほど使っていることになる訳ですが、決定木は最大で1(2^0)+2+4+8+16+32+...+524288(2^19)=1048575の中間ノードを保持しないといけなくなります(木の深さの計算方法の絡みで厳密な数字が間違っている可能性はありますが、概数ではこんなものです。また、あくまでも「最大」の数字で、もっと効率よく保持できれば、あるいは逆に効率が悪くてどこかの枝に偏ってその枝が最大深さに達すれば、当然その分だけ減ります。今回くらいデータ量が多いと、ほぼこれくらい要ると思いますが)。そしたらノード1つで数byte~数十byteくらいの感覚なので、まあそんなもんじゃね? ということです。
|
10
10
|
|
11
11
|
|
12
12
|
|
5
追記
test
CHANGED
@@ -6,7 +6,7 @@
|
|
6
6
|
|
7
7
|
|
8
8
|
|
9
|
-
全体で8GBということは木1つあたり40MBほど使っていることになる訳ですが、決定木は最大で1(2^0)+2+4+8+16+32+...+524288(2^19)=1048575の中間ノードを保持しないといけなくなります。そしたらノード1つで数byte~数十byteくらいの感覚なので、まあそんなもんじゃね? ということです。
|
9
|
+
全体で8GBということは木1つあたり40MBほど使っていることになる訳ですが、決定木は最大で1(2^0)+2+4+8+16+32+...+524288(2^19)=1048575の中間ノードを保持しないといけなくなります(木の深さの計算方法の絡みで厳密な数字が間違っている可能性はありますが、概数ではこんなものです。また、あくまでも「最大」の数字で、もっと効率よく保持できれば当然その分だけ減ります。今回くらいデータ量が多いと、ほぼこれくらい要ると思いますが)。そしたらノード1つで数byte~数十byteくらいの感覚なので、まあそんなもんじゃね? ということです。
|
10
10
|
|
11
11
|
|
12
12
|
|
4
追記
test
CHANGED
@@ -22,4 +22,4 @@
|
|
22
22
|
|
23
23
|
|
24
24
|
|
25
|
-
別途joblibを入れてもいいですし、実はsklearnの中に入っていて`from sklearn.externals import joblib`でimportすることも可能です。
|
25
|
+
別途joblibを入れてもいいですし、実はsklearnの中に入っていて(バンドルされていて)`from sklearn.externals import joblib`でimportすることも可能です。
|
3
追記
test
CHANGED
@@ -19,3 +19,7 @@
|
|
19
19
|
|
20
20
|
|
21
21
|
https://joblib.readthedocs.io/en/latest/generated/joblib.dump.html
|
22
|
+
|
23
|
+
|
24
|
+
|
25
|
+
別途joblibを入れてもいいですし、実はsklearnの中に入っていて`from sklearn.externals import joblib`でimportすることも可能です。
|
2
追記
test
CHANGED
@@ -2,7 +2,7 @@
|
|
2
2
|
|
3
3
|
|
4
4
|
|
5
|
-
ランダムフォレストの場合、パラメータを変えなくても、サンプル数を増やせばモデルの複雑性が上がるということはありえます。データの細かい分布がわかるようになりますし、増えた情報を保持させるために木の
|
5
|
+
ランダムフォレストの場合、パラメータを変えなくても、サンプル数を増やせばモデルの複雑性が上がるということはありえます。データの細かい分布がわかるようになりますし、増えた情報を保持させるために木の各枝が深くなるからです(`max_depth`は最大の深さを制限するだけですので、`max_depth`に達しない枝が実際にはたくさん存在します。サンプル数が増えるとそういう枝が減り、`max_depth`に達した枝が増えます)。
|
6
6
|
|
7
7
|
|
8
8
|
|
1
追記
test
CHANGED
@@ -6,7 +6,7 @@
|
|
6
6
|
|
7
7
|
|
8
8
|
|
9
|
-
全体で8GBということは木1つあたり40MBほど使っていることになる訳ですが、決定木は最大で1(2^0)+2+4+8+16+32+...+524288(2^19)=1048575の中間ノードを保持しないといけなくなります。そしたらノード1つで数十byteくらいの感覚なので、まあそんなもんじゃね? ということです。
|
9
|
+
全体で8GBということは木1つあたり40MBほど使っていることになる訳ですが、決定木は最大で1(2^0)+2+4+8+16+32+...+524288(2^19)=1048575の中間ノードを保持しないといけなくなります。そしたらノード1つで数byte~数十byteくらいの感覚なので、まあそんなもんじゃね? ということです。
|
10
10
|
|
11
11
|
|
12
12
|
|