アンダーサンプリングした学習モデルに対するテストデータの扱い

不均衡データでの機械学習時の検証やテスト時のデータや結果の扱いについて質問です。

不均衡データで学習（モデル作成）を行う際に、学習データのオーバーサンプリングやアンダーサンプリングが有効であることは理解できました。

一方で、オーバーサンプリングやアンダーサンプリングにより作成したモデルに対して、検証・テスト・予測（推論）を行う際には、検証・テスト・予測（推論）データはサンプリングせずに本来の正例・負例比率のまま投入することになるかと考えています。
（検証データやテストデータは学習データ同様、正例・負例の答えが分かっているので、やろうと思えばサンプリングは可能だと思いますが、予測用のデータは当然、事前に正例・負例は分からないのでサンプリングはできないですし、検証やテストでもオーバーサンプリングやアンダーサンプリングを行ってしまうことは目的と異なる気がします。）

この場合、学習時と検証・テスト・予測（推論）時で、正例・負例比率が異なりますが、検証・テスト・予測（推論）としては、サンプリングせずにそのまま投入することは特に問題ないのでしょうか？

また問題があるとしたら、検証・テスト・予測（推論）データの扱いや結果の扱いに対して、どのような対策が有効でしょうか？

ご教授頂けますと幸いです。

補足）実際に不均衡データでの機械学習に取り組んでおりますが、アンダーサンプリングである程度の精度のモデルが作成できましたが、実際に検証を行ってみたところ、こちらは精度が低くなってしまって困っています。
単なる過学習の可能性も考えられますが、上記の観点で何か問題がないのか気になっています。

jbpb0

2021/10/22 01:49

> テストデータは当然、事前に正例・負例は分からない正解が分からないデータでテストできるのですか？

matsu1007

2021/10/22 04:05

誤解を招く表現失礼いたしました。「答え合わせの前には」正解が分からないという意味で書きました。内容修正致しました。端的に質問を表現すると、テストも実際の予測（推論）時もオーバーサンプリングやアンダーサンプリングという手段は適用できないはずなので、その際の注意点を知りたいです。

jbpb0

2021/10/23 02:57

> テストも実際の予測（推論）時もオーバーサンプリングやアンダーサンプリングという手段は適用できないはず実際(本番)の予測は、正解が分かってないデータでやるのだから(正解が分かってたら、わざわざ予測する意味がない)、上記の通りですテストはあくまでも、正解が分かっているデータを使って、それをどれくらい正しく予測できるかを評価するからテストになるわけだから、テストデータは正解が分かってないとテストにならないわけで、その正解を使って事前にサンプリングすることは、やろうと思えばやれるはずただし、学習時以外で、サンプリングしないといけない理由は、思い付かないです (何かあるのかな？？) テスト結果を解釈する場合ですが、たとえば0, 1の分類問題で、テスト結果の・正解0が、0と予測された確率と1と予測された確率・正解1が、0と予測された確率と1と予測された確率がそれぞれ分かればいいのなら、サンプリングは要らないと思います正解0の予測精度に、正解1のサンプル数は影響しないので (逆も) たとえば、製品の出荷検査でOK, NG分類をする場合は、・NG品がOK分類されると市場流出してまずいので、その確率が知りたい・OK品がNG分類されると金額ロスになるので、できるだけ避けたいので、その確率が知りたいわけですが、その評価は正解OK, NG割合が偏ってても影響受けないので、サンプリングは必要ないと思います正解0, 1を分けずに、全体の単純な正解率で評価したら、大きな偏りがあるとまずいです注意点としたら、そういうことをしないことですかね