質問
scikit-learnのSVMで2値分類モデルを作っています。データの数は150程度です。
識別するラベルは0,1の2値なのですが、0の割合が80%とか偏っており、データの数が少ないためオーバーサンプリング(SMOTE)することを考えています。
ネットの記事やブログを探したところ、
学習データをオーバーサンプリングしている例はよく見るのですが、
検証用データやテストデータをオーバーサンプリングする例はあまり見ません。
Q1.検証用データ・テストデータをオーバーサンプリングすることはタブーなのでしょうか?
Q2.学習データとテストデータのラベルの比率の違いは事前確率に影響を与えると思うのですが、
比率を合わせなかったときに出てくる問題にはどのようなものがありますか?
よろしくお願いします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/10/31 11:01