機械学習による二値分類をやろうとしているのですが、アンダーサンプリング後の正解率でトレーニングでは100%近くいっても、テストでは六割程度にとどまります。過学習対策をしても、トレーニングが下がるのはいいのですが、テストは上がる気配がありません。
データをMDSによる可視化したところ、以下のようになったのですが、この分布からしてそもそも機械学習による分類が厳しい可能性もあるでしょうか。
つまりは各ラベルのデータが目的ラベルとの関係なく全般的に分布しているので、いくらトレーニングでフィットできても、テストの結果はある程度以上は望めないといった可能性があるのかなと考えているのですが、ご意見をお聞かせください。
回答3件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/07/02 04:37
2018/07/02 05:01
2018/07/02 06:27
2018/07/02 06:53