機械学習：不均衡データでオーバーサンプリングした時の問題

scikit-learnのSVMで２値分類モデルを作っている最中です。
結果ラベルは0,1の２値なのですが、0と1の割合が2:8くらいで、そのまま学習させると0の再現率が非常に低くなるため、オーバーサンプリングしています。

オーバーサンプリングには、imblearnのSMOTEを使っています。0と1の比率を1:1になるまでオーバーサンプリングさせました。

結果、学習の精度、0の再現率、1の再現率とも満足いく結果（80～90%）になりました。

しかし、この学習済みモデルを保存して、他のデータを予測させると、なぜか0を判定できません。（0の再現率が0%になる）

そこで質問なのですが、このようにオーバーサンプリングした学習済みモデルを使って他のデータを予測させる場合、なにか注意すべき点があるのでしょうか？

0の再現率が異常に低くなる原因がわからず困っています。

ご助言いただければ幸いです。

行動規範の内容に同意します

回答1件

ベストアンサー

学習データはどれくらいでしょうか。
また、学習データと他のデータの目的変数、説明変数の分布は異なってないでしょうか。

オーバーサンプリングの問題と言うよりも過学習かも知れません。
また、精度を考えるとSVMよりもアンサンブル系の方がよくなるかと思います。

投稿2020/06/21 05:11

aokikenichi

総合スコア2289

amikappa

2020/06/22 08:50

回答いただき、ありがとうございました。学習データは約３万件ほどです。ご指摘頂きましたとおり、過学習の問題でした。（オーバーサンプリングには問題ありませんでした。）学習データを作成する際、同一条件で複数回発生するものがあり、それを同一レコードを発生回数だけ作成していたことが原因で、学習データと検証データの間にデータリークが発生していました。「発生回数」という項目を設けてそこにカウント値をセットし、重複データが発生しないようにしたら、無事、考えていた結果が得られるようになりました。ありがとうございます。