過学習しているのか？それとも無理な課題なのか？

時系列データの機械学習について、
過学習しているのか？それともそもそも無理な課題なのか？
どちらか分からなくて質問させていただきます。

学習した結果の混同行列は以下の通りです。

【trainデータ】

[[1453 | 114]
[ 8 | 506]]

class | precision | recall | f1-score | support
0 | 0.99 | 0.93 | 0.96 | 1567
1 | 0.82 | 0.98 | 0.89 | 514

【testデータ】

[[311 | 81]
[ 89 | 40]]

class | precision | recall | f1-score | support
0 | 0.78 | 0.79 | 0.79 | 392
1 | 0.33 | 0.31 | 0.32 | 129

お聞きしたいことは、

①trainデータでは上手く分類できているように見えるが（一応、0.8以上あれば十分としている）、
testデータではあまり上手くいってないので過学習しているのは分かる。
これは
「過学習はしているけれど、そもそもは分類できないような問題ではない」
とこの結果から言ってよいのかどうか？

自分の感想としては、
trainデータで未学習の状態ではないので
そもそも分類できないような課題だ、とはいえないと一応思っています。

②もし過学習しているだけならば、
過学習の問題さえクリアすればtestデータでも汎化できそうな課題かどうか？
それとも過学習の問題ではなく
そもそも分類が無理な課題でありそうかどうか？（この混同行列を見た感じ）

の２点です。
宜しくお願いいたします。

行動規範の内容に同意します

回答2件

一部のわかっているパターンに対して1と分類して、その他を全て0に分類すると、今の状態を再現できる気がします。

あとはtestにわかっているパターンがどれほど含まれているのか、という問題になります。

結果から読み取る限りは典型的な過学習で、前処理することでいつでも0.5以上を達成してからさらなるチューニングをするのがよろしいのではないかと。

個人的な考えでは、偏りがあるデータに対する過学習を是正するのは原理的に困難で、モデルをランダムに近い形にしてから表現力を増やして、「過」学習の許容できるところまで学習させるのが現実的かと。

投稿2018/07/31 22:09

mkgrei

総合スコア8560

kururi10

2018/08/01 03:17

ご回答いただきありがとうございます。 testデータの1のprecisionを気にしながらやっているのですが、これがおっしゃっている分かっているパターンに対して１と分類してあとはtestにわかっているパターンがどれほど含まれているのかというところに該当するのですね。前処理することでいつでも0.5以上を達成してからという部分が具体的に何をすればよいのか僕の頭だとイメージできないのですが、不均衡データ対策でしょうか・・・？一応、不均衡データ対策＋バギングとして imbalanced-learn　の　BalancedBaggingClassifierを使っています。コード的には base_estimator = lgb.LGBMClassifier(パラメタセット) gbm = BalancedBaggingClassifier(base_estimator=base_estimator, ratio='auto', その他seedやn_estimatorsなど) gbm.fit(x_train, y_train) とやっています。欠損値は全くないので、前処理として他にやっていることはありません。。。 0.5以上を達成できればかなり嬉しいのですが、上記以外で具体的にすればよいことはありますでしょうか？

mkgrei

2018/08/02 03:45

例えば、全て同じ入力に対して異なる出力になる場合、出力の分布に偏りがなければ、全て0.5を出力するべきです。最初の狙いどころは、分布の偏りをなくして、特徴量を減らすことによって、「どちらとも言えない」モデルを作り出すことです。他のいいやり方がないという主張ではありませんので、一応。

kururi10

2018/08/02 06:11

ご回答ありがとうございます！どちらとも言えないモデルを作り出すと全て0.5を出力するようになるのでそうなるように分布の偏りをなくしたり特徴量の選別をしてみるとよいということでしょうか。。。ちょっとまだよく分かっていないのですが、 0.5というのは混同行列の中のどの数値になりますかね・・・？

mkgrei

2018/08/03 14:14

今2値の分類ですから、それぞれを0.5ずつだと判断するのが、ランダムなモデルになります。実際ノイズなしで0.5だとargmaxの取り方でどちらかがずっと判定されてしまうのでランダムにはなりませんが、目指すものとしての感覚はお分かりいただけるかと。

kururi10

2018/08/03 16:36

うーん、もう少しじっくり考えてみます・・・。ご回答ありがとうございます＾＾

kururi10

2018/08/03 16:43

ちなみに、以前教えて頂いたように線形モデルでも試してみています。 1のprecisionがLightGBM以上に上がったのですが、未知のデータへの正解率はそこまで上がらなかった感じでまた色々試してみています～。

行動規範の内容に同意します

ベストアンサー

データの性質も手法もわからないのでは、ほとんど何も言えません。

クラス1のテストデータの過半数がクラス0に予測されているのを見ると、あまり希望は持てなさそうですが・・・

不均衡データなのがずいぶん悪く働いている気がするので、とりあえずその対策をやってみるべきかと。

投稿2018/07/31 14:43

hayataka2049

総合スコア30933

kururi10

2018/07/31 14:48

ご回答ありがとうございます！そうですか・・・結果だけだと判断は難しいのですね。不均衡データ対策としては、 imbalanced-learn　の　BalancedBaggingClassifier を使っています。 ratioに'auto'を設定し、 base_estimatorにはLightGBMを使っています。たぶんこれで不均衡対策はできているはずなのですが、これを踏まえるとどんな印象をお感じになられるでしょうか・・・？

hayataka2049

2018/07/31 14:57

だとすると、渋いですねデータがgarbageなのか、分類器がロクな仕事してないのか、どちらかまたは両方でしょうか

hayataka2049

2018/07/31 15:01

ただし、スコアの良し悪しはタスク依存なので、一応f1値マクロ平均が0.555なら完全に適当にやるよりは結構マシなので、たとえば賭け事で期待値を上げるのになら使えるかもしれません。0.8が要求されるタスクなら、無理

kururi10

2018/07/31 15:05

なるほどですね、一応テストデータの1のprecisionが0.5以上あれば十分、という感じでやっています。うむう・・・、どちらも再度見直してみる必要があるということなのですね。 trainデータは未学習することなく上手くいっている（学習不足・学習不能ではない）みたいですが、これって「データの性質としてはそもそも分類できない性質のデータではないと言える」と考えてもいいのでしょうか？（これが一番知りたかったことです）

hayataka2049

2018/07/31 15:42

＞「データの性質としてはそもそも分類できない性質のデータではないと言える」表現力の低いモデルなら、そういうことはいえなくはありません（線形判別分析とかナイーブベイズあたり）ある程度表現力のあるモデルだと、過剰適合の力で分類してしまうことはできるので極端な話、一様分布する点にランダムにラベルを振ったようなデータでも、決定木に入れてとにかく木を深くしていければ学習データに対する正解率1.0ですなので、一般論で言えるか言えないかをいえば、言えません

kururi10

2018/07/31 15:48

あらら・・・そうなんですね。テストデータをうまく分類できるように、モデルの表現力をどれだけ抑えられるかがカギになってくるのですね。何度もお付き合いいただき、ありがとうございます＾＾

行動規範の内容に同意します

あなたの回答