質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.04%

機械学習 文字列を目的変数とした準備方法について

解決済

回答 3

投稿

  • 評価
  • クリップ 0
  • VIEW 79

john_doe_

score 59

結果 年齢 性別 ・・・・・・・・
参加 18 男性
欠席 22 女性
参加 33 男性
予約なし 40 不明

上記のようなデータフレームについて、
説明変数:「年齢」以降の全ての列、
目的変数:「結果」、
として「参加」「欠席」「予約なし」を予測する識別器を準備したいと考えています。

# get_dummies()関数でダミー変数に変換
result = pd.ge_dummies(pf['結果']
pd = pd.join(result)


変換後のデータフレーム

参加 欠席 予約なし 年齢 性別 ・・・・・・・・
1 0 0 18 男性
0 1 0 22 女性
1 0 0 33 男性
0 0 1 40 不明

上記のように文字列をダミー変数化させてしまうと、目的変数が3つにわかれてしまうため、
目的変数を3つにわけて識別器で学習しなければいけないのでしょうか?

factorize()関数を利用して整数値化させてしまえば、1列に「0,1,2」と表示できますが、
「参加」と「予約なし」の距離は、「参加」と「欠席」の距離の2倍という関係ではないので、
誤った処理になってしまうと感じております。

稚拙な質問となるかと存じますが、ご教示いただけましたら幸甚です。
何卒よろしくお願い申し上げます。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 3

checkベストアンサー

+1

機械学習といっても様々な手法が存在します。

例えば、k近傍法のように、目的変数の3つの値をただのラベルとして扱うものであれば、0,1,2としてしまって問題ありません。
なぜなら、結果が各値を距離として扱うようなアルゴリズムではないからです。

いっぽうで、ディープラーニングをはじめとする、出力を数値(確率や距離)として出すアルゴリズムでは、ご懸念のように、「参加」と「予約なし」と「欠席」のそれぞれの距離関係は平等であるという前提を無視した結果が出力されてしまいます。
この場合、一般には、ご推察通り、3つのダミー変数に変換します。
このとき、3回に分けて学習をする必要があるとお考えのようですが、一般にディープラーニングをはじめ、結果を数値で出力するものの多くは、出力値を複数に設定できます。
ダミー変数が3つであれば、3つの確率を出力させ、この中で最も高い確率のものに分類するというのが定石です。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/11/11 03:48

    稚拙な質問にもかかわらず、丁寧にご教示いただきまして誠にありがとうございます。

    キャンセル

+1

実装の問題なので、アルゴリズムどうこうというよりは「何で処理するか」を考慮して取り扱いを決めると良いのではないでしょうか。

たとえばscikit-learnのモデルは判別であれば原則0,1,2,...のようなラベルを受け付けることになっています。適切な尺度で取り扱われなくて問題が発生する……ということはなく、適切に処理されます(インターフェースを共通化して中身を考えなくても扱えるようにしている)(ただし多くのモデルはその変換すら不要で、「参加」「欠席」「予約なし」のまま入れても動く)。

深層学習フレームワークであればそれなりのやり方がありますし(大抵は数行の明示的なone-hot変換のコードを書きます)。

また、大切なのはうかつにpandasの枠組みで処理しないほうが良いこともある、ということです。sklearnに渡すのであればsklearnの側で、kerasに渡すのであればkerasの側で変換を行った方が何かと不都合が少ないということです。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/11/11 04:06

    ご教示いただきましてありがとうございます。
    scikit-learnのモデルを利用することを考えており、sklearn側で処理することを試してみたいと思います。

    キャンセル

0

目的変数はfactorize()関数の「0,1,2」で構いません。
この場合の数値は名義尺度と呼ばれるもので、比例関係は考えなくてよい(というより考えてはいけない)からです。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/11/10 00:22 編集

    稚拙な質問にもかかわらず、ご親切にご教示いただきましてありがとうございました。
    悩みが解決できて大変助かりました。

    説明変数についても同様にfactorize()関数で処理してもよろしいのでしょうか?

    キャンセル

  • 2019/11/10 10:20

    説明変数は、一律にこれで処理するということにはなりません。その変数の解釈によるからです。統計学上、変数は名義尺度、順序尺度、間隔尺度、比例尺度に分けて考えます(この分類は調べてください)。なので、その尺度によりそのままだったり、ダミー変数化したりと処理することになります。
    例に上がっている説明変数だと、性別は名義尺度なのでダミー変数化するでしょうが、年齢は扱い方によります。年齢差や比が重視されるならそのままでしょうが、マーケティングなどのようにF1層とかM2層とかで扱うなら名義尺度(もしくは順序尺度)でダミー変数化することになるでしょう。

    キャンセル

  • 2019/11/11 03:45

    勉強で恐縮です。尺度の分類について学習したいと思います。
    大変助かりました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.04%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる