質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

Q&A

解決済

1回答

2541閲覧

アンダーサンプリングした学習モデルに対するテストデータの扱い

matsu1007

総合スコア1

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

0グッド

0クリップ

投稿2021/10/22 00:13

編集2021/10/22 04:10

不均衡データでの機械学習時の検証やテスト時のデータや結果の扱いについて質問です。

不均衡データで学習(モデル作成)を行う際に、学習データのオーバーサンプリングやアンダーサンプリングが有効であることは理解できました。

一方で、オーバーサンプリングやアンダーサンプリングにより作成したモデルに対して、検証・テスト・予測(推論)を行う際には、検証・テスト・予測(推論)データはサンプリングせずに本来の正例・負例比率のまま投入することになるかと考えています。
(検証データやテストデータは学習データ同様、正例・負例の答えが分かっているので、やろうと思えばサンプリングは可能だと思いますが、予測用のデータは当然、事前に正例・負例は分からないのでサンプリングはできないですし、検証やテストでもオーバーサンプリングやアンダーサンプリングを行ってしまうことは目的と異なる気がします。)

この場合、学習時と検証・テスト・予測(推論)時で、正例・負例比率が異なりますが、検証・テスト・予測(推論)としては、サンプリングせずにそのまま投入することは特に問題ないのでしょうか?

また問題があるとしたら、検証・テスト・予測(推論)データの扱いや結果の扱いに対して、どのような対策が有効でしょうか?

ご教授頂けますと幸いです。

補足)実際に不均衡データでの機械学習に取り組んでおりますが、アンダーサンプリングである程度の精度のモデルが作成できましたが、実際に検証を行ってみたところ、こちらは精度が低くなってしまって困っています。
単なる過学習の可能性も考えられますが、上記の観点で何か問題がないのか気になっています。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

jbpb0

2021/10/22 01:49

> テストデータは当然、事前に正例・負例は分からない 正解が分からないデータでテストできるのですか?
matsu1007

2021/10/22 04:05

誤解を招く表現失礼いたしました。 「答え合わせの前には」正解が分からないという意味で書きました。 内容修正致しました。 端的に質問を表現すると、テストも実際の予測(推論)時もオーバーサンプリングやアンダーサンプリングという手段は適用できないはずなので、その際の注意点を知りたいです。
jbpb0

2021/10/23 02:57

> テストも実際の予測(推論)時もオーバーサンプリングやアンダーサンプリングという手段は適用できないはず 実際(本番)の予測は、正解が分かってないデータでやるのだから(正解が分かってたら、わざわざ予測する意味がない)、上記の通りです テストはあくまでも、正解が分かっているデータを使って、それをどれくらい正しく予測できるかを評価するからテストになるわけだから、テストデータは正解が分かってないとテストにならないわけで、その正解を使って事前にサンプリングすることは、やろうと思えばやれるはず ただし、学習時以外で、サンプリングしないといけない理由は、思い付かないです (何かあるのかな??) テスト結果を解釈する場合ですが、たとえば0, 1の分類問題で、テスト結果の ・正解0が、0と予測された確率と1と予測された確率 ・正解1が、0と予測された確率と1と予測された確率 がそれぞれ分かればいいのなら、サンプリングは要らないと思います 正解0の予測精度に、正解1のサンプル数は影響しないので (逆も) たとえば、製品の出荷検査でOK, NG分類をする場合は、 ・NG品がOK分類されると市場流出してまずいので、その確率が知りたい ・OK品がNG分類されると金額ロスになるので、できるだけ避けたいので、その確率が知りたい わけですが、その評価は正解OK, NG割合が偏ってても影響受けないので、サンプリングは必要ないと思います 正解0, 1を分けずに、全体の単純な正解率で評価したら、大きな偏りがあるとまずいです 注意点としたら、そういうことをしないことですかね
guest

回答1

0

ベストアンサー

問題ありません。

不均衡データをオーバーサンプリング等の手段で学習するのは、モデルを適切に創るためです。
既に創られたモデルを使う、学習の段階では、気にする必要はありません。

下のイメージでご理解いただけるかと思います。

  • 上段が学習の時であり、オーバーサンプリング等の適切な不均衡データ学習を行わないと、多数派の学習データに過学習したモデルになってしまいます。
  • 下段は推論の時であり、既にモデルは固まっている段階ですので、データが不均衡であるかどうかは気にする必要はありません。

イメージ説明

投稿2021/10/24 00:42

編集2021/10/24 00:48
toast-uz

総合スコア3266

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

matsu1007

2021/10/25 04:31

端的かつ分かりやすいご回答ありがとうございます。 頂戴した回答で、理解できました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問