列内に複数要素あるデータのダミー変数化

前提・実現したいこと

機械学習の特徴量加工において、
学習データの列内に複数の要素が含まれているケースがありますが、
こちらをダミー変数化する方法を教えていただけないでしょうか。

・変換したいデータの例(Series型)
s_temp = pd.Series(data["japan,china","china","america","america,canada,korea"])

1行目 japan,china
2行目 china
3行目 america,canada
4行目 america,canada,korea

・実現したいアウトプット(dataframe型、列順にこだわりなし)
japan china america canada korea
1 1 　0 0 0
0 1 　0 0 0
0 0 　1 1 0
0 0 1 1 1

試したこと

split関数で実現しようとしましたが、
ここから先の方法が分かりませんでした…

s_temp.str.split(',',expand=True)

0 1 2
0 japan china None
1 china None None
2 america None None
3 america canada korea

meg_

2022/01/02 03:37

https://note.nkmk.me/python-pandas-get-dummies/ ではなく自作したいということですか？

tm1242

2022/01/02 06:20

get_dummiesだと変換が上手なかったのですが、ppulさんに投稿していただいた方法で実現できそうです！

meg_

2022/01/02 09:18

> get_dummiesだと変換が上手なかったのですがそのことをその時のコード含めて質問に記入いただけるとより良い回答が付くかと思われます。今後のご参考までに。

tm1242

2022/01/02 09:50

meg_さん、失礼いたしました… 次質問するときはトライした内容を全て記載するようにします。アドバイスいただきありがとうございます。

行動規範の内容に同意します

回答1件

ベストアンサー

こういう感じです。

python
1>>> pd.get_dummies(s_temp.str.split(',',expand=True).stack()).groupby(level=0).sum()
2   america  canada  china  japan  korea
30        0       0      1      1      0
41        0       0      1      0      0
52        1       0      0      0      0
63        1       1      0      0      1