不均衡データに対するロジスティック回帰の適用に関する手法があればご教授下さい

現在、（機械学習のライブラリ等を用いずに）自前でロジスティック回帰を行うプログラムを作成しています。

　現時点では、テストデータ（正例と負例の割合が等しい、1万件程度のデータ）に関しては、正常に動作している状態です。

　ですが、最終的には正例：負例が1:100程度の不均衡データを処理したいと考えています。そこで、下記サイトを参考に予測確率を調整してみたのですが、思うように精度が出ません。

　　Over-/Under-samplingをして学習した2クラス分類器の予測確率を調整する式

　上記以外に不均衡データを上手く扱う為の手法があれば、教えて頂きたいです。

行動規範の内容に同意します

回答1件

ベストアンサー

正例の識別率が80%、負例の識別率が80%のところでそれぞれ閾値を設ければよいと考えました。その際に正例に対する混入率も算出し、それにしたがって閾値を変更するなどの対策はどうでしょう。

投稿2020/01/27 07:20

aaaa_desu

総合スコア66

rtr1950x

2020/01/27 07:57

「Break even point」の様な指標でしょうか？現在は一番うまく行った場合でも、precisionが0.2前後（この時、recallは0.8前後）でした。Break even pointを出してみたら、0.6だったので良いとは言えない値です。参考までに、現在はUndersamplingではなく、「全部のデータを使う。ただし、損失項の計算の際に、負例に対する損失の重みを1/100倍する。」という方法でやっています。（正例と負例の、損失項に対する影響度を同じにしようという意図です。）

aaaa_desu

2020/01/27 08:18

テストデータに対してpredict_probaで発生確率が求まると思うので、正例だけを集めたデータ・セット、負例だけを集めたデータ・セットをヒストグラムで算出してみると閾値が見やすいと思います。参考にした論文を掲載しておきます。 https://arxiv.org/abs/1108.1202 こちらのPDFを押してもらうと論文が記載されています。

rtr1950x

2020/01/27 08:39

sklearnは使っていませんが、predict_probaと同等の処理は書けそうです。まずはそれでヒストグラムを出してみます。ご紹介頂いた論文は結構長いので、頑張って読んでみます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.29%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する