かなり初歩的な質問なのですが不均衡なデータセットを用いてモデルを作成する際に疑問に感じたので質問させてください。
データセットが全部で1000件あったとして
正常画像データが900件、不良画像データが100件の不均衡なデータセットがあるとします
不均衡なデータセットに対する問題点としては評価指標としてAccuracyを算出したときに
全てを正常と判定してしまうと精度90%というような数値上はよいモデルと判断しかねないことだと解釈しています。
画像データが少ない場合はData Augmentationを行う事が多いと思うのですが
データ件数は増えてもデータの均衡という点では大きな変化はないのかなと感じます。
こういった問題に対しては評価指標を適切な物(PR曲線、ROC曲線など)を扱えば不均衡なデータに関しては特に意識せずモデルの学習に使っても良いのか、それとも上記の例でいうところの不良データに対してのみデータ数を何らかの手法で均衡になることを目指して別のアプローチをする必要があるのでしょうか?
※素人的な考えですが訓練データ、検証データ、テストデータを作成する際に、訓練データが不均衡なデータのまま学習させると例えば正常だけを学習する機会が多くなってしまうので訓練データだけでも出来るだけ均等にするべきなのかなと考えます。
初歩的な質問で申し訳ありませんがアドバイス頂けたら幸いです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/03/27 01:25
2019/03/28 13:38
2019/03/29 07:52
2019/03/30 19:22
2019/04/01 06:28