分からないこと: nested cross validationの時、どのようにデータを分割し特徴量を選択すればよいかが分からない。
特徴量選択時、一般的に、データをtrainとtestに分割し、相関係数などを指標にtrainで特徴量を選択すると思います。
では、nested cross validationでは、どのように特徴量を選択すればよいでしょうか。
全データを使って特徴量選択を行い、その後にnested cross validationを行えばよいのでしょうか。
追記:
特徴量選択時、情報のリークを避けるため、データをtrainとtestに分割し、trainで特徴量選択を行うに対し、
nested cross validationではどうすればよいか、という質問です。
例えば、outer loopが5-foldである時、trainとtestの各組で特徴長選択を行うべきでしょうか。
( 5回繰り返すのでしょうか。 )
それとも、全データで特徴量選択を行い、その後にnested cross validationで性能評価を行えばよいでしょうか。
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2020/10/04 01:28 編集
2020/10/04 02:01
退会済みユーザー
2020/10/04 06:46
2020/10/04 07:02
退会済みユーザー
2020/10/04 09:12
2020/10/04 09:15
退会済みユーザー
2020/10/04 11:34