【scikit-learn】Label EncoderとOne Hot Encoderの使い分けについて

最近機械学習（データ解析）の勉強をしているのですが、疑問に感じる点があったので質問させていただきます。

scikit-learnには、カテゴリ変数を数値化するためのメソッドとして

・Label Encoder
・One Hot Encoder

が存在しています。

これらの使い分け方に関して詳しい方にお聞きしたいのですが、
分類の場合はLabel Encoderを、回帰の場合はOne Hot Encoderを使うのが適切であるという解釈でよろしいのでしょうか？

以上のように考えた理由としては、
Label Encoderはカテゴリ変数をそのまま数値に置き換える
→数値の大小が順序的意味を持ってしまう
→数値を予測する回帰には思わしくない影響を与えてしまう（分類であれば問題なさそう？）
という思考に陥ったからです。
逆に、One Hot Encoderは、カテゴリ変数をダミー変数化（０・１のみに）してくれるため、順序的意味を持たずに済み、回帰にも使用できるのではないかと考えました。

詳しい方がいましたら、以上の内容についてご教授いただきたいです。
よろしくお願いいたします。

hayataka2049

2019/10/09 16:25

git_dummiesはget_dummiesです。ついでにいうと、これはpandasの関数の名前ですが、関係ないのであれば質問から消した方が良いと思います。

dal

2019/10/09 16:33

ご指摘ありがとうございます。打ち間違えをコピペしてしまってました... scikit-learnとは無関係なので、指摘通り削除いたしました。

行動規範の内容に同意します

回答1件

ベストアンサー

まずLabelEncoderは目的変数側に、OneHotEncoderは説明変数側に使うという大きな違いがあり、使う場所が違うので使い分けを考える必要はありません。

fit(self, y)
Fit label encoder

Parameters:
y : array-like of shape (n_samples,)
Target values.

sklearn.preprocessing.LabelEncoder — scikit-learn 0.21.3 documentation

scikit-learnのモデルの多くは実はターゲットはラベルのまま（たとえば文字列で["hoge", "hoge", "fuga", ...]のような）入れても動いてくれます。LabelEncoderを使う必然性はあまりないのかもしれません（それでもなんとなく気持ち悪いから使っておく、程度の存在）。

では説明変数側でLabelEncoderと同様のことをするものはないのかというと、OrdinalEncoderというモデルがあります。OneHotEncoderと比較するならこちらになります。

sklearn.preprocessing.OrdinalEncoder — scikit-learn 0.21.3 documentation

で、あるにはあるのですが、説明変数を0,1,2,...にすることは回帰でも分類でも基本的にはありません。ユーザーガイドにも思いっきりそう書いてあります。そういう目的ならOneHotEncoderを使え、と。

To convert categorical features to such integer codes, we can use the OrdinalEncoder. This estimator transforms each categorical feature to one new feature of integers (0 to n_categories - 1):
python
1>>> enc = preprocessing.OrdinalEncoder()
2>>> X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
3>>> enc.fit(X)  
4OrdinalEncoder(categories='auto', dtype=<... 'numpy.float64'>)
5>>> enc.transform([['female', 'from US', 'uses Safari']])
6array([[0., 1., 1.]])
Such integer representation can, however, not be used directly with all scikit-learn estimators, as these expect continuous input, and would interpret the categories as being ordered, which is often not desired (i.e. the set of browsers was ordered arbitrarily).

5.3. Preprocessing data — scikit-learn 0.21.3 documentation