分類問題のラベル不均一

前提・実現したいこと

マルチクラスの分類問題において、
例えば、取りうるラベルは0~4の5種類で既知とします。

手元のデータを分割して検討する場合、分割した学習データが03の4ラベルになった場合、4分類されます。
分割した残りを評価データとした場合、こちらには04の5種のラベルが存在しているので、評価ができません。

逆に学習した結果は5分類の確率を返し、評価データ内に4分類しか存在しない場合もあると思います。
こういったケースの場合は評価方法で悩んでいます。

皆様はどうやって解決していますか、ご教授ください。

発生している問題・エラーメッセージ

ValueError: y_true and y_pred contain different number of classes 5, 4. Please provide the true labels explicitly through the labels argument. Classes found in y_true: [0 1 2 3 4]

該当のソースコード

python
1import pandas as pd
2import numpy as np
3
4from sklearn import linear_model
5from sklearn.metrics import log_loss
6
7
8LR_type_param = {
9    "random_state":0,
10    "solver":"saga",
11    "multi_class":"auto",
12    "penalty":"l2",
13    "C":2,
14    
15}
16#評価データが5種のラベルを持ち、学習データ上に4種しか存在しない場合
17X_train = pd.DataFrame(np.arange(16).reshape(4, 4))
18y_train=pd.Series([0,1,2,3])
19X_eval = pd.DataFrame(np.arange(20).reshape(5, 4))
20y_eval = pd.Series([0,1,2,3,4])
21
22model_1 =  linear_model.LogisticRegression(**LR_type_param)
23pred=model_1.fit(X_train, y_train).predict_proba(X_eval)
24logloss = log_loss(y_eval,pred)   #これがエラーになります。
25
26#評価データが4種のラベルを持ち、学習データ上に5種存在する場合
27X_train = pd.DataFrame(np.arange(20).reshape(5, 4))
28y_train=pd.Series([0,1,2,3,4])
29X_eval = pd.DataFrame(np.arange(16).reshape(4, 4))
30y_eval = pd.Series([0,1,2,3])
31
32model_1 =  linear_model.LogisticRegression(**LR_type_param)
33pred=model_1.fit(X_train, y_train).predict_proba(X_eval)
34logloss = log_loss(y_eval,pred)   #これがエラーになります。

試したこと

「評価データが5種のラベルを持ち、学習データ上に4種しか存在しない場合」
のケースでは、予測値の4種の確率に対して0埋めしたデータを結合して、5種の分類に拡張すれば良いと考えました。

「評価データが5種のラベルを持ち、学習データ上に4種しか存在しない場合」
のケースでは、(このテストコードの場合)4のデータを足せば出来そうですが、その分誤差も出ると思うので、
いい方法が分からない状態です。

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

行動規範の内容に同意します

回答2件

ベストアンサー

マルチクラスの識別の場合、ラベル側はOne-Hot表現にします。よって、難しいことを考えなければ、最初にラベルをOne-Hot表現にしてから学習用データと評価用データに分割すれば、_og_さんがやりたいことである「5クラス識別モデルについて学習時に4クラス分しかデータがない状態でも5クラスモデルとして学習したい」は実現できます。
ただし、これはエラーにならないようにできるということであって、適切なモデルが生成できるということとは別問題です。5クラス識別モデルを作成したいのであればデータは5クラス分あるほうが自然なので、hayataka2049さんの指摘とおり、学習時に4クラス分のデータしかない状態は避けるべきかと思います。とはいえ、あるクラスのデータが極少だと、そういうケースは起こりえます。回避策としては、hayataka2049さんの提案にあるように一定割合で極少クラスを保持するように学習データと評価データの分割をすることが無難です。
ただし、この場合でもあるクラスが極少という状況に変わりがありません。こうしたラベルが不均一な状態だと極少のクラスの予測性能が著しく悪くなることが予想されるので、Over-Samplingして学習データのクラスを均一にしたほうがいいと思います。
あるいは、極少のクラスとそれ以外を異常値検知モデルで識別しておいて、それ以外を4クラス識別モデルで識別するという2段階で処理するという方法もあるかと思います。

投稿2020/05/25 19:06

R.Shigemori

総合スコア3376

_og_

2020/05/26 05:23

ご回答ありがとうございます。目的変数のラベルの方は、One-Hot表現にしていませんでしたが、5ラベルが既知としてエンコードすれば確かに回避できそうですね。まずは、データ分割の際に不均一が発生しないように処理します。ただ、Baggingして学習するときにこの不均一さがあった方が汎用的になるのかな？と思ったりもしました。複数のデータセットに分割し、アンサンブルしていましたが、「極少のクラスとそれ以外を異常値検知モデルで識別しておいて、それ以外を4クラス識別モデルで識別するという2段階で処理する」も確かによさそうですね。極小クラスが本当に頻度低い場合、4クラス分類したデータセットに関しては極小クラスの確率0%にした方が精度が出そうな気がします。お二人とも回答ありがとうございました。

行動規範の内容に同意します

基本的には「そのような状況は避ける」しかないでしょう。そもそも、各ラベルごとに片手で数えられるくらいしかデータがない、というような状況では、どのみち機械学習はうまく機能しません。やろうとする方が間違いということになります。

ある程度データ数があれば、たとえばscikit-learnのtrain_test_splitであればstratifyオプションを使ってラベル比率に基づく分割を行ってくれます。一般的なユースケースではこれで十分です。

sklearn.model_selection.train_test_split — scikit-learn 0.23.1 documentation

「学習データの中に含まれるどのラベルでもない」といった判断も原理的にできなくはありませんが、割と特殊なアルゴリズムを使うことになると思います。先に外れ値検出するか、それと同等のことを実現できる分類アルゴリズムを探すか（あるかどうかは把握していません、さすがに研究で提案はされているだろうと思いますが、使いやすい実装があるかもまた別）という感じになるかと。

投稿2020/05/25 15:33

hayataka2049

総合スコア30935

_og_

2020/05/26 05:16

ご回答ありがとうございました。ソースは説明のサンプル用で、データ自体は10万程度ありましたので教えていただいた「stratify」オプションを使用することで大体のケースは回避できそうです。また例えばデータセットに1データしか存在していないラベルが発生した場合、そのラベルは欠損値として扱うようにしたいと思います。

行動規範の内容に同意します

あなたの回答