|結果|年齢|性別|・・・・・・・・
|:--|:--:|--:|
|参加|18|男性|
|欠席|22|女性|
|参加|33|男性|
|予約なし|40|不明|
上記のようなデータフレームについて、
説明変数:「年齢」以降の全ての列、
目的変数:「結果」、
として「参加」「欠席」「予約なし」を予測する識別器を準備したいと考えています。
# get_dummies()関数でダミー変数に変換 result = pd.ge_dummies(pf['結果'] pd = pd.join(result)
変換後のデータフレーム
参加|欠席|予約なし|年齢|性別|・・・・・・・・
|:--|:--:|--:|
|1|0|0|18|男性|
|0|1|0|22|女性|
|1|0|0|33|男性|
|0|0|1|40|不明|
上記のように文字列をダミー変数化させてしまうと、目的変数が3つにわかれてしまうため、
目的変数を3つにわけて識別器で学習しなければいけないのでしょうか?
factorize()関数を利用して整数値化させてしまえば、1列に「0,1,2」と表示できますが、
「参加」と「予約なし」の距離は、「参加」と「欠席」の距離の2倍という関係ではないので、
誤った処理になってしまうと感じております。
稚拙な質問となるかと存じますが、ご教示いただけましたら幸甚です。
何卒よろしくお願い申し上げます。
回答3件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/11/10 19:06