前提・実現したいこと
不均衡データのケースだったため、オーバーサンプリング分類モデルを生成しました。
その生成分類モデルを別データに使用する際、使用データにもオーバーサンプリングは実施すべきなのでしょうか?実施、未実施だと大きくスコアが異なります。
実現したいことは、「サービスの解約者の予測、解約予備軍を抽出しアプローチをすること」になります。
詳しい方、ご教授いただけましたら幸いです。
よろしくお願いいたします。
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答2件
0
ベストアンサー
その生成分類モデルを別データに使用する際、使用データにもオーバーサンプリングは実施すべきなのでしょうか?
「別データ・使用データ」というのはつまり性能評価に使うテストデータのことを考えているのでしょうか? だとすればクラス間のサンプル数不均衡で評価指標が変わるという問題に帰着します。
テストデータに擬似的に生成したデータが混ざると、その評価方法が妥当なのかどうかという余計な懸念を産んでしまいます。性能が現実より高く見積もられてしまうのでは、といった懸念ですね。
シンプルに説明が面倒くさくなるので、私ならやらないと思います。
評価指標を使う前には、以下のような手続きを踏みます。データ不均衡を気にする前に、まずはこれがちゃんとできているかを確認してください。
- まず評価指標を適切に選ぶ
どれか目的にかなったものを選ばないといけません。適合率、再現率、F1のどれにフォーカスするのか。解約予備軍クラスかどうかの二値分類問題として評価指標を算出するのか。多クラスなのか(マクロ平均、マイクロ平均)。など、考えるべきことは多いでしょう。今回のような場合、無難なのは二値分類問題とみなしたときのF1でしょうか。
- その評価指標を使う
同等のデータで、同等の方法で計算した評価指標同士は比較できます。逆に言うと、データを変えたり計算方法を変えたりした数字の優劣は気にしても意味がありません。要するに、モデル選択以外では評価指標はあまり役に立たないと割り切って、腹をくくることです。
で、どうやったにせよ、ほとんどの方法ではオーバーサンプリングするかどうかで結果は変わります。
投稿2020/02/03 18:12
総合スコア30935
0
「サービスの解約者の予測、解約予備軍を抽出しアプローチをすること」
この場合、個人的な意見ですが、オーバーサンプリングして分類問題で解決するよりも異常検知の枠組みで解析した方が良い気がします。異常検知の枠組みであれば正常データ(オーバーサンプリングしてないもの)から閾値を設定して検出できるので、不均衡データの対策を必要としないので良いのではないかと思います。
異常検知の方法としては、例えばですが簡単な定性分析方法として、(どんな特徴量があるのか分かりませんが)昨年と本年度の何らかのログ情報の比率を算出して、設定した閾値を超えたら(例えば、比率の平均+分散を上回るとか、何らかの値をうわま)異常として検出する等のような擬似的な方向点検出のアプローチで大まかな解析などができると思います。
どのような仕様を元にしてアプローチするかによってリリース実装などにおいて実現したいことが変わってくるので一概にこの方法が良いとは言えませんが、良かったら参考にしていただければと思います。
投稿2020/02/03 09:47
総合スコア1408
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/02/03 10:11
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2020/02/04 00:27
2020/02/04 00:44
2020/02/04 00:48 編集
退会済みユーザー
2020/02/04 01:40