get_dummysを使ってone hotエンコーディングをしようとしているが重複の対応の処理が上手くできない

Python初心者です。Python3を使っており、pandas dataframeのget_dummysで解決しようとして詰まっております。

前提・実現したいこと

DataFrame(1もしくは2)を元に0, 1のone hotに置き換えをしたい。

手元には加工用のデータとしてDataFrame1もしくはDataFrame2があります。idは個人で、これまで住んだことのある場所がlocationにでてきます。多くの人は同じ国にいますが、移動される方がいるので、locationを複数持ってる人がいるような形のデータです。

#加工に使用した元データ
#DataFrame1
#id  location
#12  japan
#9   china
:
#8   taiwan
#10  usa
#12  usa
#10  canada
#10  japan


#もしくはこの形でも対応できます
#DataFrame2
#id  location
#12  japan, usa
#9   china
:
#8   taiwan
#10  usa, canada, japan

#最終的に完成してほしい形

#DataFrame3
#id  japan usa china canada taiwan
#12  1     1   0     0      0
#9   0     0   1     0      0
:
#8   0     0   0     0      1
#10  1     1   0     1      0

実際に算出するステップとしてはいくつか方法を考えましたが、idの数が多く(1万行ほど)、自分のPCのスペックだと処理に時間がかかる、リソースが足りないなどで、詰まっています。
1.DataFrame1でget_dummysを実施し各行ごとにone hotを作成。重複のあるものを後から足し合わせようとしたが、時間がかかり失敗。
2.get_dummysを使用せずに、同一のidを抽出後、作成しておいたtempleteに、該当の国名があれば、1を入れるようにする。時間がかかり同じく失敗。
3.事前に重複があるものを別々のdataframeに切り分けて、get_dummysを実行。カラムなどを揃えて、あとからmergeしようとするが失敗。

効率的に対応できるTipsなどアドバイスをいただけると大変有り難いです。

*今回のdataframeは質問用に作成したものです。

行動規範の内容に同意します

回答2件

前者なら

python
1df1_onehot = (
2    pd.get_dummies(df1, columns=["location"], prefix="", prefix_sep="",)
3    .groupby(by="id")
4    .any()
5    .astype(int)
6)

後者なら

python
1df2_onehot = df2.set_index("id").location.str.get_dummies(sep=", ")

投稿2020/07/23 00:48

yymmt

総合スコア1615

ROKUNO

2020/07/26 10:03

ありがとうございます！どちらのケースでも実施することができ大変助かりました。

行動規範の内容に同意します

ベストアンサー

get_dummies() → groupby("Id") → sum() でできます。

python
1import pandas as pd
2
3df = pd.DataFrame(
4    {
5        "Id": [12, 9, 8, 10, 12, 10, 10],
6        "Country": ["Japan", "China", "Taiwan", "Usa", "Usa", "Canada", "Japan"],
7    }
8)
9
10ret = pd.get_dummies(df, prefix="", prefix_sep="").groupby("Id").sum()

Id	Canada	China	Japan	Taiwan	Usa
8	0	0	0	1	0
9	0	1	0	0	0
10	1	0	1	0	1
12	0	0	1	0	1

仕組み

	Id	Country
0	12	Japan
1	9	China
2	8	Taiwan
3	10	Usa
4	12	Usa
5	10	Canada
6	10	Japan

↓ pd.get_dummies(df, prefix="", prefix_sep="")

	Id	Canada	China	Japan	Taiwan	Usa
0	12	0	0	1	0	0
1	9	0	1	0	0	0
2	8	0	0	0	1	0
3	10	0	0	0	0	1
4	12	0	0	0	0	1
5	10	1	0	0	0	0
6	10	0	0	1	0	0

↓

groupby("Id")

Id = 8

	Id	Canada	China	Japan	Taiwan	Usa
2	8	0	0	0	1	0

Id = 9

	Id	Canada	China	Japan	Taiwan	Usa
1	9	0	1	0	0	0

Id = 10

	Id	Canada	Japan	Usa
3	10	0	0	1
5	10	1	0	0
6	10	0	1	0

Id = 12

	Id	Canada	China	Japan	Taiwan	Usa
0	12	0	0	1	0	0
4	12	0	0	0	0	1

↓ sum()

Id	Canada	China	Japan	Taiwan	Usa
8	0	0	0	1	0
9	0	1	0	0	0
10	1	0	1	0	1
12	0	0	1	0	1

投稿2020/07/23 00:24

tiitoi

総合スコア21956

ROKUNO

2020/07/26 10:03

ありがとうございます。無事に対応でき、また仕組みについても理解できました。今度ともよろしくお願い致します。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

get_dummysを使ってone hotエンコーディングをしようとしているが重複の対応の処理が上手くできない

前提・実現したいこと

仕組み

関連した質問