Pandasでダミー変数からカテゴリ変数に変換したい

前提・実現したいこと

統計集計のためダミー変数からカテゴリ変数に変換したいのですが
Iの行のように値が２箇所に入っている場合はNaNにしたいのですがうまくいきません。

２箇所以上に値が入っている場合はNaNにする方法を教えてください。
よろしくお願いいたします。

ダミー変数

name	6	7	8	9	10	11	12
A	1	0	0	0	0	0	0
B	0	1	0	0	0	0	0
C	0	0	1	0	0	0	0
D	0	0	0	1	0	0	0
E	0	0	0	0	1	0	0
F	0	0	0	0	0	1	0
G	0	0	0	0	0	0	1
H	0	0	0	0	0	0	0
I	0	0	1	0	1	0	0

変換して

カテゴリ変数

name	variable
A	6
B	7
C	8
D	9
E	10
F	11
G	12
H	NaN
I	NaN

発生している問題・エラーメッセージ

下記ソースではうまくいかないため結合してます

name	variable
A	6
B	7
C	8
D	9
E	10
F	11
G	12
H	NaN
I	8,10

該当のソースコード

python
1import io
2import pandas as pd
3import numpy as np
4
5data = """\
6name,6,7,8,9,10,11,12
7A,1,0,0,0,0,0,0
8B,0,1,0,0,0,0,0
9C,0,0,1,0,0,0,0
10D,0,0,0,1,0,0,0
11E,0,0,0,0,1,0,0
12F,0,0,0,0,0,1,0
13G,0,0,0,0,0,0,1
14H,0,0,0,0,0,0,0
15I,0,0,1,0,1,0,0
16"""
17
18df = pd.read_csv(io.StringIO(data))
19
20# 集計
21df["sum"] = df.loc[:,"6":"12"].sum(axis=1)
22
23# 集計して0ところをnan列を作成し1にする
24df.loc[(df["sum"] == 0), "nan"] = 1
25
26df1 = pd.melt(df, id_vars=["name"], value_vars=["6","7","8","9","10","11","12","nan"])
27
28df2 = df1[df1["value"] == 1]
29
30df3 = df2.pivot_table(index="name", values="variable", aggfunc=lambda x: ",".join(str(v) for v in x))
31
32df3.mask(df3["variable"] == "nan")

行動規範の内容に同意します

回答1件

ベストアンサー

Python
1import io
2import pandas as pd
3import numpy as np
4
5data = """\
6name,6,7,8,9,10,11,12
7A,1,0,0,0,0,0,0
8B,0,1,0,0,0,0,0
9C,0,0,1,0,0,0,0
10D,0,0,0,1,0,0,0
11E,0,0,0,0,1,0,0
12F,0,0,0,0,0,1,0
13G,0,0,0,0,0,0,1
14H,0,0,0,0,0,0,0
15I,0,0,1,0,1,0,0
16"""
17
18df = pd.read_csv(io.StringIO(data), index_col=['name'])

Python
1df2 = df[df.sum(1) == 1].idxmax(1)
2
3df2
4# name
5# A     6
6# B     7
7# C     8
8# D     9
9# E    10
10# F    11
11# G    12
12# dtype: object
13
14df2.reindex(df.index)
15# name
16# A     6
17# B     7
18# C     8
19# D     9
20# E    10
21# F    11
22# G    12
23# H    NaN
24# I    NaN
25# dtype: object

どうでしょうか。

投稿2019/12/17 08:35

kirara0048

総合スコア1399

barobaro

2019/12/17 12:05

kirara0048さん idxmaxとreindexは知らなかったので勉強になりました。どうもありがとうございます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

『🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中！

＼teratail特別グッズやAmazonギフトカード最大2,000円分が当たる！／

Pandasでダミー変数からカテゴリ変数に変換したい

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

関連した質問

name	6	7	8	9	10	11	12
A	1	0	0	0	0	0	0
B	0	1	0	0	0	0	0
C	0	0	1	0	0	0	0
D	0	0	0	1	0	0	0
E	0	0	0	0	1	0	0
F	0	0	0	0	0	1	0
G	0	0	0	0	0	0	1
H	0	0	0	0	0	0	0
I	0	0	1	0	1	0	0

name	6	7	8	9	10	11	12
A	1	0	0	0	0	0	0
B	0	1	0	0	0	0	0
C	0	0	1	0	0	0	0
D	0	0	0	1	0	0	0
E	0	0	0	0	1	0	0
F	0	0	0	0	0	1	0
G	0	0	0	0	0	0	1
H	0	0	0	0	0	0	0
I	0	0	1	0	1	0	0

name	6	7	8	9	10	11	12
A	1	0	0	0	0	0	0
B	0	1	0	0	0	0	0
C	0	0	1	0	0	0	0
D	0	0	0	1	0	0	0
E	0	0	0	0	1	0	0
F	0	0	0	0	0	1	0
G	0	0	0	0	0	0	1
H	0	0	0	0	0	0	0
I	0	0	1	0	1	0	0