質問編集履歴

3

scikitのタグ追加

2020/05/13 21:04

投稿

kouji_39
kouji_39

スコア164

test CHANGED
File without changes
test CHANGED
File without changes

2

テンプレートで見やすくした。自分なりの回答も加えた。

2020/05/13 21:04

投稿

kouji_39
kouji_39

スコア164

test CHANGED
File without changes
test CHANGED
@@ -1,12 +1,18 @@
1
+ ### 実現したいこと
2
+
1
3
  boston住宅データで、層化samplingを使って、trainとtestのデータをスプリット
2
4
 
3
- させています。層化を一定間隔(bins)にすると、下の図のようになるのですが、ここで、
5
+ させています。層化を一定間隔(bins)にすると、下の図-1のようになるのですが、ここで、
4
6
 
5
7
  層化させる範囲を、データ個数がある程度一定になるようにするということは必要としな
6
8
 
7
9
  いのでしょうか。実用的な使い方をされている方のアドバイスがいただけたら、ありがた
8
10
 
11
+ いです。
12
+
13
+
14
+
9
- いです。よろしくお願いいたします。
15
+ ### 該当のソースコード
10
16
 
11
17
  ```
12
18
 
@@ -56,4 +62,44 @@
56
62
 
57
63
  ```
58
64
 
65
+
66
+
59
67
  ![イメージ説明](c33a3178245ba195fea891525be517e2.png)
68
+
69
+   図-1 データセットの目的変数のヒストグラム
70
+
71
+
72
+
73
+ ### 参考にしたこと
74
+
75
+ 下記の参考書のコードを参考にしています
76
+
77
+ ・scikit-learn活用レシピ(㈱インプレス発行)の9.5レシピ72(pp.272-pp.274)
78
+
79
+
80
+
81
+ ###自分なりの回答
82
+
83
+ 層化サンプリングにより、trainとtestでの目的変数の分布が偏らないことが目的であり、
84
+
85
+ データ個数を一定化させると、その効果は減少する。しかし、データがある部分で極端に少なく
86
+
87
+ なり、その区分で2個未満にはさせないようにする。
88
+
89
+ (注)以上は、この質問をしてから、自分なりに分析したものです。
90
+
91
+
92
+
93
+
94
+
95
+ ### 発生している問題・エラーメッセージ
96
+
97
+ 今回該当なし
98
+
99
+
100
+
101
+ ###補足情報
102
+
103
+ 開発環境:Google Colaboratory
104
+
105
+ バージョン:python3

1

予測回帰モデルの追加

2020/05/13 20:38

投稿

kouji_39
kouji_39

スコア164

test CHANGED
File without changes
test CHANGED
@@ -42,6 +42,18 @@
42
42
 
43
43
  print('X_trainの形状:',X_train.shape,' y_trainの形状:',y_train.shape,' X_testの形状:',X_test.shape,' y_testの形状:',y_test.shape)
44
44
 
45
+
46
+
47
+ # ランダムフォレスト回帰のモデルを作成
48
+
49
+ model = RandomForestRegressor(bootstrap=True, n_estimators=1000, criterion='mse', max_depth=None, random_state=0, n_jobs=-1)
50
+
51
+
52
+
53
+ # モデルの訓練
54
+
55
+ model.fit(X_train, y_train)
56
+
45
57
  ```
46
58
 
47
59
  ![イメージ説明](c33a3178245ba195fea891525be517e2.png)