質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

2737閲覧

不均衡データの分類の改善のための意見をください!

re1313

総合スコア2

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/07/19 08:57

前提・実現したいこと

LightGBMで、不均衡表データに対する二値分類を行います。評価基準はPresicion-Recall曲線のAUCを見ています。
ただし、結果が悪く、改善に詰まっているため意見がほしいです。

状況

丸め込んだ数字ですが、

不均衡データ(Positive : Negative = 0.35% : 99.65%)全体量はかなりたくさんある

PR-AUCは
train : 0.95
test : 0.25

PR-AUCがtestとtrainがこれだけ離れてると過学習かと思ってイテレーションごとにPR-AUCを見ていくと、1回目からかけ離れていて、イテレーションを回すとそのままtrainが微妙に改善するという状況。
ただし、よく見てみると1回目のときだけPR-AUCは0.3だとか少し高めで、2回目以降のイテレーションで0.2台になるので、どんなにearlystoppingを長くとっても、1回目が採用される。イメージ説明

試したこと

不均衡データに特化した手法として、
・データはかなり量があるので、ダウンサンプリング
・LightGBMのis_unbalane='true'
・earlystoppingのためのeval_metricはPR-AUC
・optunaでハイパーパラメータチューニング
いずれも大きな改善には繋がりませんでした。
ただし、testデータを間違ってダウンサンプリングしたときは、PR-AUCが0.9台になりました。明らかに不均衡であることが悪さをしていることは確認できています。
ちなみにscikit-learn APIのLightGBMを使っています。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

re1313

2021/07/19 11:48

ありがとうございます。これはまだ試していません。1より大きな数にすると良いみたいですが、目安としてどれくらいの数字にすると良いのでしょうか...?
jbpb0

2021/07/19 11:52 編集

上のコメントで参考に挙げたURLで、その議論してますので、見てください
re1313

2021/07/19 11:55

ほんとですね、書いてありました。やってみます!
guest

回答1

0

投稿2022/12/01 02:22

jbpb0

総合スコア7653

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問