質問編集履歴
3
scikitのタグ追加
test
CHANGED
File without changes
|
test
CHANGED
File without changes
|
2
テンプレートで見やすくした。自分なりの回答も加えた。
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,12 +1,18 @@
|
|
1
|
+
### 実現したいこと
|
2
|
+
|
1
3
|
boston住宅データで、層化samplingを使って、trainとtestのデータをスプリット
|
2
4
|
|
3
|
-
させています。層化を一定間隔(bins)にすると、下の図のようになるのですが、ここで、
|
5
|
+
させています。層化を一定間隔(bins)にすると、下の図-1のようになるのですが、ここで、
|
4
6
|
|
5
7
|
層化させる範囲を、データ個数がある程度一定になるようにするということは必要としな
|
6
8
|
|
7
9
|
いのでしょうか。実用的な使い方をされている方のアドバイスがいただけたら、ありがた
|
8
10
|
|
11
|
+
いです。
|
12
|
+
|
13
|
+
|
14
|
+
|
9
|
-
|
15
|
+
### 該当のソースコード
|
10
16
|
|
11
17
|
```
|
12
18
|
|
@@ -56,4 +62,44 @@
|
|
56
62
|
|
57
63
|
```
|
58
64
|
|
65
|
+
|
66
|
+
|
59
67
|

|
68
|
+
|
69
|
+
図-1 データセットの目的変数のヒストグラム
|
70
|
+
|
71
|
+
|
72
|
+
|
73
|
+
### 参考にしたこと
|
74
|
+
|
75
|
+
下記の参考書のコードを参考にしています
|
76
|
+
|
77
|
+
・scikit-learn活用レシピ(㈱インプレス発行)の9.5レシピ72(pp.272-pp.274)
|
78
|
+
|
79
|
+
|
80
|
+
|
81
|
+
###自分なりの回答
|
82
|
+
|
83
|
+
層化サンプリングにより、trainとtestでの目的変数の分布が偏らないことが目的であり、
|
84
|
+
|
85
|
+
データ個数を一定化させると、その効果は減少する。しかし、データがある部分で極端に少なく
|
86
|
+
|
87
|
+
なり、その区分で2個未満にはさせないようにする。
|
88
|
+
|
89
|
+
(注)以上は、この質問をしてから、自分なりに分析したものです。
|
90
|
+
|
91
|
+
|
92
|
+
|
93
|
+
|
94
|
+
|
95
|
+
### 発生している問題・エラーメッセージ
|
96
|
+
|
97
|
+
今回該当なし
|
98
|
+
|
99
|
+
|
100
|
+
|
101
|
+
###補足情報
|
102
|
+
|
103
|
+
開発環境:Google Colaboratory
|
104
|
+
|
105
|
+
バージョン:python3
|
1
予測回帰モデルの追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -42,6 +42,18 @@
|
|
42
42
|
|
43
43
|
print('X_trainの形状:',X_train.shape,' y_trainの形状:',y_train.shape,' X_testの形状:',X_test.shape,' y_testの形状:',y_test.shape)
|
44
44
|
|
45
|
+
|
46
|
+
|
47
|
+
# ランダムフォレスト回帰のモデルを作成
|
48
|
+
|
49
|
+
model = RandomForestRegressor(bootstrap=True, n_estimators=1000, criterion='mse', max_depth=None, random_state=0, n_jobs=-1)
|
50
|
+
|
51
|
+
|
52
|
+
|
53
|
+
# モデルの訓練
|
54
|
+
|
55
|
+
model.fit(X_train, y_train)
|
56
|
+
|
45
57
|
```
|
46
58
|
|
47
59
|

|