不均衡データでの機械学習時の検証時に関する質問です。
不均衡データで学習(モデル作成)を行う際に、学習データのオーバーサンプリングやアンダーサンプリングが有効であることは理解できました。
実際に、手元の課題の不均衡データ(正例比率0.5%)で、以下の分類を試行し、以下の結果となりました。
①不均衡データそのままで学習と検証の両方を行った
→非常に低い精度(適合率)のモデルとなってしまった
②負例をアンダーサンプリングしたサンプル(正例比率20%)で学習と検証の両方を行った
→狙い通りの精度(適合率)のモデルができた
③負例をアンダーサンプリングしたサンプル(正例比率20%)で学習、検証は不均衡データそのままで学習させた
→学習モデルの精度(適合率)は狙い通りの高さだったものの、検証の精度(適合率)は①と同等の非常に低い値となってしまった
※補足ですが、①~③とも直近1年間のデータで、直近3か月を検証、それ以前の9か月を学習サンプルにしております。
月毎のばらつきはほとんどなく、1年を通して時期による影響は少ないデータです。
また、AUCも低く、検証の予測確率値の閾値を調整しても適合率は改善できませんでした。
実運用(予測)することを考えると、当然、テストデータはサンプリングせずに本来の正例・負例比率のまま投入することになるかと考えております。
そうなると③の検証精度が実態と考えるべきだと思いますが、上記の通り、使用できる精度のモデルにはなっておりません。
モデルの改善を図りたいと思っていますが、②でうまくいっているのに関わらず、③ではうまくいかない理由が思い当たらず、どんな原因が考えられるのか、ご教授頂けましたらと考えております。
実は以前に似たような質問をさせて頂いており、適用(予測)時には、アンダーサンプリングして作ったモデルでも問題ない旨の回答を頂き、理解・納得しました。
アンダーサンプリングした学習モデルに対するテストデータの扱い
しかし、実際にモデル作成に取り組んでみると、今回のようなケースに直面してしまいました。
改善のヒントを頂戴できたらと考えております。何卒よろしくお願い致します。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。