機械学習(ランダムフォレスト)で分類を行う場合の、カテゴリーデータの考え方について苦慮しております!
ある分類問題を、機械学習を行う時に、説明変数に天気を用いるとします。
この時に、天気(晴、曇、小雨、雨、雪)を、以下のように、カテゴリー変数に置換します。これを設定Aとします。
天気 | ||
---|---|---|
晴 | 1 | |
曇 | 2 | |
小雨 | 3 | |
雨 | 4 | |
雪 | 5 |
そして、説明変数のサンプルを a:晴、b:曇、c:小雨、d:雨、e:雪 と設定した場合は、以下のようになると思います。
天気 | ||
---|---|---|
a | 1 | |
b | 2 | |
c | 3 | |
d | 4 | |
e | 5 |
ここで、もうひとつ、上記とは異なった方法で、下記のように、カテゴリー変数に置換してみます。
これを設定Bとします。
||晴|曇|小雨|雨|雪|
|:--|:--:|--:|
a|1|0|0|0|0|
b|0|1|0|0|0|
c|0|0|1|0|0|
d|0|0|0|1|0|
e|0|0|0|0|1|
天気のような、扱いにくい質的変数はダミー変数化することで扱い易くしようと思いましたが、設定A と 設定B では
どちらが、望ましいのでしょうか。
上記の先人様のリンク先を拝見しますと、
Q:カテゴリデータを単純に数値にしては?
だめ。順序尺度と解釈される可能性がある
とうたっておられます。
順序尺度と解釈されないようにするには、どうしたら良いのでしょうか?
また、次元の呪いの考え方ですが、
、
※次元の呪い(Curse of dimensionality):
特徴量(説明変数)の数が増えると汎化性能を向上させることが難しくなる ということを
設定Bは、特徴量が増えているというように理解しても良いのでしょうか?
今回は、天気という5種類の分類ですが、例えば、これがもっと多い場合、例えば、地名で1000箇所ということを考えた場合、
1~10000 までを 設定Aの手法で、カテゴリー変数化しても大丈夫でしょうか?
上記の先人様のブログも拝見させて頂きました。
先輩方の御教示、よろしくお願いいたします。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。