python pandas で割合を出したい

python でデータ分析を勉強中です。
CSV から取得したデータを使って各データの割合を出そうとしています。
データ全体を使った割引は出せるのですが、グループ化したデータを使って出すことが出来ません。
データ全体の割合は下記のように出しています。

python
1df = pd.read_csv('data/test.csv',encoding="utf-8")
2df_cond = df.loc[:, 'status']
3df_cond.value_counts(normalize=True)

データの作りを変えれば value_counts で出せると思いますので、データの作り変え方についてご教授頂けないでしょうか。

元のデータ

no	type	status
1	a	off
2	a	on
3	a	on
4	a	off
5	a	off
6	b	off
7	b	on
8	b	off
9	b	off
10	b	off
11	c	off

期待する戻り値

type	status	%
a	on	40
a	off	60
b	on	20
b	off	80
c	off	100

詰まっている箇所
元のデータから下記のデータに変換する処理

a	b	c
off	off	off
on	on	nan
on	off	nan
off	off	nan
off	off	nan

pythonの勉強をはじめたところでソースが全く思い浮かびません。
よろしくお願い致します。

行動規範の内容に同意します

回答2件

ベストアンサー

Python
1ret = df.groupby('type')['status'].apply(lambda d: d.value_counts(normalize=True)*100)
2#a     on      40.0
3#      off     60.0
4#b     on      20.0
5#      off     80.0
6#c     on       0.0
7#      off    100.0
8#Name: status, dtype: float64

で良いかと思います。
ただし、上記の結果は MultiIndexのSeriesで得られますので、DataFrameに変換する必要があるのであれば

Python
1ret = ret.reset_index().rename(columns={'level_1':'status', 'status':'rate'})
2#  type status   rate
3#0    a    off   60.0
4#1    a     on   40.0
5#2    b    off   80.0
6#3    b     on   20.0
7#4    c    off  100.0

のようにIndexを剥がして Column名を修正するとよいのではないでしょうか。

投稿2019/12/13 04:34

magichan

総合スコア15898

be_yaann

2019/12/13 06:04

ありがとうございます。意図した通りの結果をとれました。またMultiIndexの処理の方法まで記載していただき、助かります

行動規範の内容に同意します

Python
1>>> df.groupby(['type'])['status'].agg('value_counts', normalize=True)
2type  status
3a     off       0.6
4      on        0.4
5b     off       0.8
6      on        0.2
7c     off       1.0
8Name: status, dtype: float64