前提・実現したいこと
機械学習の特徴量加工において、
学習データの列内に複数の要素が含まれているケースがありますが、
こちらをダミー変数化する方法を教えていただけないでしょうか。
・変換したいデータの例(Series型)
s_temp = pd.Series(data["japan,china","china","america","america,canada,korea"])
1行目 japan,china
2行目 china
3行目 america,canada
4行目 america,canada,korea
・実現したいアウトプット(dataframe型、列順にこだわりなし)
japan china america canada korea
1 1 0 0 0
0 1 0 0 0
0 0 1 1 0
0 0 1 1 1
試したこと
split関数で実現しようとしましたが、
ここから先の方法が分かりませんでした…
s_temp.str.split(',',expand=True)
0 1 2
0 japan china None
1 china None None
2 america None None
3 america canada korea
回答1件
あなたの回答
tips
プレビュー