教師あり学習において、訓練データとテストデータに分割する際の層化サンプリングにの必要性について質問させてください。
まず、あるデータセットに対して、X,yに格納した説明変数、目的変数があります。(yは0と1のどちらかの値をもつラベルです)
そのX,yを訓練データとテストデータに下記のコードにより分割しました。
Python
1X_train,X_test,y_train, y_test=train_test_split(X, y, stratify=y )
Python
1print(y_train.value_counts()) 2print(y_test.value_counts()) 3print(y.value_counts())
下記の結果は上記のコードの実行結果で、層化サンプリングによってyを訓練データとテストデータを分割したあとの0と1のデータの数です。
Python
1#訓練データ 20 265 31 181 4Name: Survived, dtype: int64 5#テストデータ 60 89 71 60 8Name: Survived, dtype: int64 9#元のデータセット 100 354 111 241
この結果から、層化サンプリングはあるデータセットに対して2種類の0と1を持つラベルデータをYに格納した場合、訓練データとテストデータに層化サンプリングを用いて分割する必要があるのは、データにどのような特徴がある場合でしょうか?
個人的には訓練データとテストデータそれぞれを0と1のデータを5:5に分割するべきではないかと考えてしまいます。
それでは、よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/04/15 06:38
2020/04/15 06:43 編集
2020/04/15 06:48
2020/04/15 07:13
2020/04/15 07:35 編集
2020/04/15 07:41