不均衡データのアンダーサンプリングモデルで検証がうまくいかない時に考えられること

不均衡データでの機械学習時の検証時に関する質問です。

不均衡データで学習（モデル作成）を行う際に、学習データのオーバーサンプリングやアンダーサンプリングが有効であることは理解できました。

実際に、手元の課題の不均衡データ（正例比率0.5%)で、以下の分類を試行し、以下の結果となりました。

①不均衡データそのままで学習と検証の両方を行った
→非常に低い精度（適合率）のモデルとなってしまった

②負例をアンダーサンプリングしたサンプル(正例比率20%)で学習と検証の両方を行った
→狙い通りの精度（適合率）のモデルができた

③負例をアンダーサンプリングしたサンプル(正例比率20%)で学習、検証は不均衡データそのままで学習させた
→学習モデルの精度（適合率）は狙い通りの高さだったものの、検証の精度（適合率）は①と同等の非常に低い値となってしまった

※補足ですが、①～③とも直近1年間のデータで、直近3か月を検証、それ以前の9か月を学習サンプルにしております。
月毎のばらつきはほとんどなく、1年を通して時期による影響は少ないデータです。
また、AUCも低く、検証の予測確率値の閾値を調整しても適合率は改善できませんでした。

実運用（予測）することを考えると、当然、テストデータはサンプリングせずに本来の正例・負例比率のまま投入することになるかと考えております。
そうなると③の検証精度が実態と考えるべきだと思いますが、上記の通り、使用できる精度のモデルにはなっておりません。

モデルの改善を図りたいと思っていますが、②でうまくいっているのに関わらず、③ではうまくいかない理由が思い当たらず、どんな原因が考えられるのか、ご教授頂けましたらと考えております。

実は以前に似たような質問をさせて頂いており、適用（予測）時には、アンダーサンプリングして作ったモデルでも問題ない旨の回答を頂き、理解・納得しました。
アンダーサンプリングした学習モデルに対するテストデータの扱い

しかし、実際にモデル作成に取り組んでみると、今回のようなケースに直面してしまいました。

改善のヒントを頂戴できたらと考えております。何卒よろしくお願い致します。

行動規範の内容に同意します

回答1件

データの分布、使用したアルゴリズムにもよるかと思いますが、ご質問のような状況で適合率が極端に下がるのはよくあることかなと思います。
参考例を下記に表にしてみました。

負例を増やした場合、増やす前と同じ程度で負例の方を正しく予測できたとしても、適合率としては下記となるので極端に下がります。

この例に当てはまるならば負例を増やして適合率を維持している方がちょっと異常なくらい例外的なことかと思います。

投稿2022/02/05 03:18

総合スコア2282

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問