機械学習に適していないデータ？

機械学習による二値分類をやろうとしているのですが、アンダーサンプリング後の正解率でトレーニングでは100%近くいっても、テストでは六割程度にとどまります。過学習対策をしても、トレーニングが下がるのはいいのですが、テストは上がる気配がありません。

データをMDSによる可視化したところ、以下のようになったのですが、この分布からしてそもそも機械学習による分類が厳しい可能性もあるでしょうか。

つまりは各ラベルのデータが目的ラベルとの関係なく全般的に分布しているので、いくらトレーニングでフィットできても、テストの結果はある程度以上は望めないといった可能性があるのかなと考えているのですが、ご意見をお聞かせください。

行動規範の内容に同意します

回答3件

classが 0と1の二つしか無いのであれば
六割程度ではほとんど学習出来ていないと言えなくも無いです。
よって、データが悪いか、　データに対するアプローチが悪いとは思います。

所で、確認したいのですが六割とは、
recallでしょうか？precisionでしょうか？

しかし、図を真に受けるならば、○1に対して×0 の方がデータ数が圧倒的に多いのではないかと思うのですが、
その量は合っているでしょうか？
このデータだったら、全データに対して 0を出力するモデルになりそうだと思っているのですが、
それならば見かけ上の性能はもっと上がると思うのですが

投稿2018/07/02 04:34

tak__tak

総合スコア78

nouken

2018/07/02 04:37

アンダーサンプリングで負例を正例の数にあわせております。ので、accuracyをつかっております。

AliHassan

2018/07/02 05:01

try to change your path and then compare both results .

tak__tak

2018/07/02 06:27

全データの数トレーニングデータの数テストデータの数を知りたいです。サンプリングで和をどう変えたのかもです。

AliHassan

2018/07/02 06:53

you don't need to change sum of sampling if you only need no of test first download the data and then tensor

行動規範の内容に同意します

ベストアンサー

学習し難いデータというのはもちろん存在します。
なので、具体的なデータを与えられていない状態で、何か有益なことが上がってくるとは思えません。

次に、機械学習による分類というのでは情報が少なすぎます。
考えうる手法が多すぎます。

「日本語でよくわからない文書がありました。これは誰が読んでもわからないものですか？」
と聞かれているようなものです。

たとえば、
線形モデルとの比較はありますか？定量的な差は？
交差検定しましたか？分散は？
パラメータチューニングしましたか？どうやってしましたか？
などの情報が必要です。

投稿2018/07/02 13:07

mkgrei

総合スコア8560

その画像だけでは何も言えません。とりあえず、MDSも良いですが、PCAだと寄与率が見やすいので、そっちで可視化して寄与率を見てみてください。そうしないと、どの程度の情報が2次元で現れているか判断できないので・・・
また、SOMやt-SNEなどの非線形変換で可視化する系のアルゴリズムにかけ、データの「まとまり」が存在するのかしないのかを判断しておくと、ある程度は指針になります。