機械学習（ランダムフォレスト）で分類問題を行う場合の、質的変数（カテゴリーデータ）の考え方について苦慮しております！

機械学習（ランダムフォレスト）で分類を行う場合の、カテゴリーデータの考え方について苦慮しております！

ある分類問題を、機械学習を行う時に、説明変数に天気を用いるとします。

この時に、天気（晴、曇、小雨、雨、雪）を、以下のように、カテゴリー変数に置換します。これを設定Aとします。

	天気
晴	１
曇	２
小雨	３
雨	４
雪	５

そして、説明変数のサンプルを a：晴、b：曇、c：小雨、d：雨、e：雪と設定した場合は、以下のようになると思います。

	天気
a	１
b	２
c	３
d	４
e	５

ここで、もうひとつ、上記とは異なった方法で、下記のように、カテゴリー変数に置換してみます。
これを設定Bとします。

||晴|曇|小雨|雨|雪|
|:--|:--:|--:|
a|１|0|0|0|0|
b|0|1|0|0|0|
c|0|0|1|0|0|
d|0|0|0|1|0|
e|0|0|0|0|1|

天気のような、扱いにくい質的変数はダミー変数化することで扱い易くしようと思いましたが、設定A と設定B では
どちらが、望ましいのでしょうか。

ウイリアムのいたずら様のリンク

上記の先人様のリンク先を拝見しますと、

Q:カテゴリデータを単純に数値にしては？

だめ。順序尺度と解釈される可能性がある

とうたっておられます。

順序尺度と解釈されないようにするには、どうしたら良いのでしょうか？

また、次元の呪いの考え方ですが、
、

※次元の呪い(Curse of dimensionality):
特徴量（説明変数）の数が増えると汎化性能を向上させることが難しくなるということを

設定Bは、特徴量が増えているというように理解しても良いのでしょうか？

今回は、天気という５種類の分類ですが、例えば、これがもっと多い場合、例えば、地名で１０００箇所ということを考えた場合、

１～１００００までを設定Aの手法で、カテゴリー変数化しても大丈夫でしょうか？

system trading様のブログ

上記の先人様のブログも拝見させて頂きました。

先輩方の御教示、よろしくお願いいたします。

行動規範の内容に同意します

回答1件

データによります。また、説明変数の種類にもよります。

基本的に回帰分析等で相関を調べたりして、良さそうな物を説明変数に用います。また、それを数値化する方法も色々あり、単純な出現回数によるベクトル化、出現回数を正規化した物、BoWによるベクトル変換等、どれが良いかはデータにもよるので一概にこれとは言えません。全部試して1番精度が良いものを採用するのが良いです。

投稿2017/07/15 00:34