不均衡データでの機械学習時の検証やテスト時のデータや結果の扱いについて質問です。
不均衡データで学習(モデル作成)を行う際に、学習データのオーバーサンプリングやアンダーサンプリングが有効であることは理解できました。
一方で、オーバーサンプリングやアンダーサンプリングにより作成したモデルに対して、検証・テスト・予測(推論)を行う際には、検証・テスト・予測(推論)データはサンプリングせずに本来の正例・負例比率のまま投入することになるかと考えています。
(検証データやテストデータは学習データ同様、正例・負例の答えが分かっているので、やろうと思えばサンプリングは可能だと思いますが、予測用のデータは当然、事前に正例・負例は分からないのでサンプリングはできないですし、検証やテストでもオーバーサンプリングやアンダーサンプリングを行ってしまうことは目的と異なる気がします。)
この場合、学習時と検証・テスト・予測(推論)時で、正例・負例比率が異なりますが、検証・テスト・予測(推論)としては、サンプリングせずにそのまま投入することは特に問題ないのでしょうか?
また問題があるとしたら、検証・テスト・予測(推論)データの扱いや結果の扱いに対して、どのような対策が有効でしょうか?
ご教授頂けますと幸いです。
補足)実際に不均衡データでの機械学習に取り組んでおりますが、アンダーサンプリングである程度の精度のモデルが作成できましたが、実際に検証を行ってみたところ、こちらは精度が低くなってしまって困っています。
単なる過学習の可能性も考えられますが、上記の観点で何か問題がないのか気になっています。
回答1件
あなたの回答
tips
プレビュー