質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

1465閲覧

機械学習(ランダムフォレスト)で分類問題を行う場合の、質的変数(カテゴリーデータ)の考え方について苦慮しております!

akakage13

総合スコア89

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2017/07/14 22:20

機械学習(ランダムフォレスト)で分類を行う場合の、カテゴリーデータの考え方について苦慮しております!

ある分類問題を、機械学習を行う時に、説明変数に天気を用いるとします。

この時に、天気(晴、曇、小雨、雨、雪)を、以下のように、カテゴリー変数に置換します。これを設定Aとします。

天気
小雨

そして、説明変数のサンプルを a:晴、b:曇、c:小雨、d:雨、e:雪 と設定した場合は、以下のようになると思います。

天気
a
b
c
d
e

ここで、もうひとつ、上記とは異なった方法で、下記のように、カテゴリー変数に置換してみます。
これを設定Bとします。

||晴|曇|小雨|雨|雪|
|:--|:--:|--:|
a|1|0|0|0|0|
b|0|1|0|0|0|
c|0|0|1|0|0|
d|0|0|0|1|0|
e|0|0|0|0|1|

天気のような、扱いにくい質的変数はダミー変数化することで扱い易くしようと思いましたが、設定A と 設定B では
どちらが、望ましいのでしょうか。

ウイリアムのいたずら様のリンク

上記の先人様のリンク先を拝見しますと、

Q:カテゴリデータを単純に数値にしては?

だめ。順序尺度と解釈される可能性がある

とうたっておられます。

順序尺度と解釈されないようにするには、どうしたら良いのでしょうか?

また、次元の呪いの考え方ですが、

※次元の呪い(Curse of dimensionality):
特徴量(説明変数)の数が増えると汎化性能を向上させることが難しくなる ということを

設定Bは、特徴量が増えているというように理解しても良いのでしょうか?

今回は、天気という5種類の分類ですが、例えば、これがもっと多い場合、例えば、地名で1000箇所ということを考えた場合、

1~10000 までを 設定Aの手法で、カテゴリー変数化しても大丈夫でしょうか?

system trading様のブログ

上記の先人様のブログも拝見させて頂きました。

先輩方の御教示、よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

データによります。また、説明変数の種類にもよります。

基本的に回帰分析等で相関を調べたりして、良さそうな物を説明変数に用います。また、それを数値化する方法も色々あり、単純な出現回数によるベクトル化、出現回数を正規化した物、BoWによるベクトル変換等、どれが良いかはデータにもよるので一概にこれとは言えません。全部試して1番精度が良いものを採用するのが良いです。

投稿2017/07/15 00:34

_Victorique__

総合スコア1392

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問