機械学習　文字列を目的変数とした準備方法について

|結果|年齢|性別|・・・・・・・・
|:--|:--:|--:|
|参加|18|男性|
|欠席|22|女性|
|参加|33|男性|
|予約なし|40|不明|

上記のようなデータフレームについて、
説明変数：「年齢」以降の全ての列、
目的変数：「結果」、
として「参加」「欠席」「予約なし」を予測する識別器を準備したいと考えています。

# get_dummies()関数でダミー変数に変換
result = pd.ge_dummies(pf['結果']
pd = pd.join(result)

変換後のデータフレーム
参加|欠席|予約なし|年齢|性別|・・・・・・・・
|:--|:--:|--:|
|1|0|0|18|男性|
|0|1|0|22|女性|
|1|0|0|33|男性|
|0|0|1|40|不明|

上記のように文字列をダミー変数化させてしまうと、目的変数が３つにわかれてしまうため、
目的変数を3つにわけて識別器で学習しなければいけないのでしょうか？

factorize()関数を利用して整数値化させてしまえば、1列に「0,1,2」と表示できますが、
「参加」と「予約なし」の距離は、「参加」と「欠席」の距離の2倍という関係ではないので、
誤った処理になってしまうと感じております。

稚拙な質問となるかと存じますが、ご教示いただけましたら幸甚です。
何卒よろしくお願い申し上げます。

行動規範の内容に同意します

回答3件

実装の問題なので、アルゴリズムどうこうというよりは「何で処理するか」を考慮して取り扱いを決めると良いのではないでしょうか。

たとえばscikit-learnのモデルは判別であれば原則0,1,2,...のようなラベルを受け付けることになっています。適切な尺度で取り扱われなくて問題が発生する……ということはなく、適切に処理されます（インターフェースを共通化して中身を考えなくても扱えるようにしている）（ただし多くのモデルはその変換すら不要で、「参加」「欠席」「予約なし」のまま入れても動く）。

深層学習フレームワークであればそれなりのやり方がありますし（大抵は数行の明示的なone-hot変換のコードを書きます）。

また、大切なのはうかつにpandasの枠組みで処理しないほうが良いこともある、ということです。sklearnに渡すのであればsklearnの側で、kerasに渡すのであればkerasの側で変換を行った方が何かと不都合が少ないということです。

投稿2019/11/10 18:54

hayataka2049

総合スコア30933

john_doe_

2019/11/10 19:06

ご教示いただきましてありがとうございます。 scikit-learnのモデルを利用することを考えており、sklearn側で処理することを試してみたいと思います。

行動規範の内容に同意します

ベストアンサー

機械学習といっても様々な手法が存在します。

例えば、k近傍法のように、目的変数の3つの値をただのラベルとして扱うものであれば、0,1,2としてしまって問題ありません。
なぜなら、結果が各値を距離として扱うようなアルゴリズムではないからです。

いっぽうで、ディープラーニングをはじめとする、出力を数値(確率や距離)として出すアルゴリズムでは、ご懸念のように、「参加」と「予約なし」と「欠席」のそれぞれの距離関係は平等であるという前提を無視した結果が出力されてしまいます。
この場合、一般には、ご推察通り、3つのダミー変数に変換します。
このとき、3回に分けて学習をする必要があるとお考えのようですが、一般にディープラーニングをはじめ、結果を数値で出力するものの多くは、出力値を複数に設定できます。
ダミー変数が3つであれば、3つの確率を出力させ、この中で最も高い確率のものに分類するというのが定石です。

投稿2019/11/10 04:24

qax

総合スコア622

john_doe_

2019/11/10 18:48

稚拙な質問にもかかわらず、丁寧にご教示いただきまして誠にありがとうございます。

行動規範の内容に同意します

目的変数はfactorize()関数の「0,1,2」で構いません。
この場合の数値は名義尺度と呼ばれるもので、比例関係は考えなくてよい（というより考えてはいけない）からです。

投稿2019/11/09 12:03

NCC1701

総合スコア1680

john_doe_

2019/11/09 15:26 編集

稚拙な質問にもかかわらず、ご親切にご教示いただきましてありがとうございました。悩みが解決できて大変助かりました。説明変数についても同様にfactorize()関数で処理してもよろしいのでしょうか？

NCC1701

2019/11/10 01:20

説明変数は、一律にこれで処理するということにはなりません。その変数の解釈によるからです。統計学上、変数は名義尺度、順序尺度、間隔尺度、比例尺度に分けて考えます（この分類は調べてください）。なので、その尺度によりそのままだったり、ダミー変数化したりと処理することになります。例に上がっている説明変数だと、性別は名義尺度なのでダミー変数化するでしょうが、年齢は扱い方によります。年齢差や比が重視されるならそのままでしょうが、マーケティングなどのようにF1層とかM2層とかで扱うなら名義尺度（もしくは順序尺度）でダミー変数化することになるでしょう。

john_doe_

2019/11/10 18:45

勉強で恐縮です。尺度の分類について学習したいと思います。大変助かりました。

行動規範の内容に同意します

あなたの回答