質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

Q&A

1回答

1314閲覧

不均衡データのアンダーサンプリングモデルで検証がうまくいかない時に考えられること

matsu1007

総合スコア1

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

0グッド

0クリップ

投稿2022/01/27 10:38

不均衡データでの機械学習時の検証時に関する質問です。

不均衡データで学習(モデル作成)を行う際に、学習データのオーバーサンプリングやアンダーサンプリングが有効であることは理解できました。

実際に、手元の課題の不均衡データ(正例比率0.5%)で、以下の分類を試行し、以下の結果となりました。

①不均衡データそのままで学習と検証の両方を行った
→非常に低い精度(適合率)のモデルとなってしまった

②負例をアンダーサンプリングしたサンプル(正例比率20%)で学習と検証の両方を行った
→狙い通りの精度(適合率)のモデルができた

③負例をアンダーサンプリングしたサンプル(正例比率20%)で学習、検証は不均衡データそのままで学習させた
→学習モデルの精度(適合率)は狙い通りの高さだったものの、検証の精度(適合率)は①と同等の非常に低い値となってしまった

※補足ですが、①~③とも直近1年間のデータで、直近3か月を検証、それ以前の9か月を学習サンプルにしております。
月毎のばらつきはほとんどなく、1年を通して時期による影響は少ないデータです。
また、AUCも低く、検証の予測確率値の閾値を調整しても適合率は改善できませんでした。

実運用(予測)することを考えると、当然、テストデータはサンプリングせずに本来の正例・負例比率のまま投入することになるかと考えております。
そうなると③の検証精度が実態と考えるべきだと思いますが、上記の通り、使用できる精度のモデルにはなっておりません。

モデルの改善を図りたいと思っていますが、②でうまくいっているのに関わらず、③ではうまくいかない理由が思い当たらず、どんな原因が考えられるのか、ご教授頂けましたらと考えております。

実は以前に似たような質問をさせて頂いており、適用(予測)時には、アンダーサンプリングして作ったモデルでも問題ない旨の回答を頂き、理解・納得しました。
アンダーサンプリングした学習モデルに対するテストデータの扱い

しかし、実際にモデル作成に取り組んでみると、今回のようなケースに直面してしまいました。

改善のヒントを頂戴できたらと考えております。何卒よろしくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

データの分布、使用したアルゴリズムにもよるかと思いますが、ご質問のような状況で適合率が極端に下がるのはよくあることかなと思います。
参考例を下記に表にしてみました。

  • 正例の予測は変わらないと想定
  • 負例の予測の正否も変わらないと想定し、単純に49.5倍(正例比率20%→0.5%とするための単純な負例増)

負例を増やした場合、増やす前と同じ程度で負例の方を正しく予測できたとしても、適合率としては下記となるので極端に下がります。

イメージ説明

この例に当てはまるならば負例を増やして適合率を維持している方がちょっと異常なくらい例外的なことかと思います。

投稿2022/02/05 03:18

aokikenichi

総合スコア2218

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問