回答率: 85.31%

質問するログイン新規登録

トップに関する質問層化samplingの均等化について

編集履歴

質問編集履歴

3

scikitのタグ追加

2020/05/13 21:04

投稿

スコア164

test CHANGED Viewed

File without changes

test CHANGED Viewed

File without changes

2

テンプレートで見やすくした。自分なりの回答も加えた。

2020/05/13 21:04

投稿

スコア164

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1,12 +1,18 @@
+###  実現したいこと
 boston住宅データで、層化samplingを使って、trainとtestのデータをスプリット
-させています。層化を一定間隔(bins）にすると、下の図のようになるのですが、ここで、
+させています。層化を一定間隔(bins）にすると、下の図-1のようになるのですが、ここで、
 層化させる範囲を、データ個数がある程度一定になるようにするということは必要としな
 いのでしょうか。実用的な使い方をされている方のアドバイスがいただけたら、ありがた
+いです。
-いです。よろしくお願いいたします。
+### 該当のソースコード
 ```
@@ -56,4 +62,44 @@
 ```
 ![イメージ説明](c33a3178245ba195fea891525be517e2.png)
+　　図-1　データセットの目的変数のヒストグラム
+### 参考にしたこと
+下記の参考書のコードを参考にしています
+・scikit-learn活用レシピ（㈱インプレス発行）の9.5レシピ72（pp.272-pp.274）
+###自分なりの回答
+層化サンプリングにより、trainとtestでの目的変数の分布が偏らないことが目的であり、
+データ個数を一定化させると、その効果は減少する。しかし、データがある部分で極端に少なく
+なり、その区分で２個未満にはさせないようにする。
+（注）以上は、この質問をしてから、自分なりに分析したものです。
+### 発生している問題・エラーメッセージ
+今回該当なし
+###補足情報
+開発環境：Google Colaboratory
+バージョン：python3

1

予測回帰モデルの追加

2020/05/13 20:38

投稿

スコア164

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -42,6 +42,18 @@
 print('X_trainの形状：',X_train.shape,' y_trainの形状：',y_train.shape,' X_testの形状：',X_test.shape,' y_testの形状：',y_test.shape)
+# ランダムフォレスト回帰のモデルを作成
+model = RandomForestRegressor(bootstrap=True, n_estimators=1000, criterion='mse', max_depth=None, random_state=0, n_jobs=-1)
+# モデルの訓練
+model.fit(X_train, y_train)
 ```
 ![イメージ説明](c33a3178245ba195fea891525be517e2.png)