pandas pivot_tableの引数aggfuncについて

前提・実現したいこと

pandasのpivot_tableのaggfunc(集計方法)を、sumやcountを組み合わせた任意の方法で行うにはどうすればいいでしょうか。

例として、下記のようなDataFrameを考えたとき、storeとgenderのクロス集計を行い、
セルごとの顧客単価 SUM(revenue) / COUNT(customer) を求めるような集計をしたいのですが、
記法や、調べ方がよくかわりません。

ご教示いただけないでしょうか。

該当のソースコード

python
1import pandas as pd
2
3df = pd.DataFrame({
4    'customer' : ['A','B','C','D','E','F','G','H','I','J','K','L','M'],
5    'store' : ['tokyo','tokyo','tokyo','tokyo','tokyo','osaka','osaka','osaka','osaka','nagoya','nagoya','nagoya','nagoya'],
6    'gender' : ['male','male','female','female','male','male','female','male','female','female','male','female','male'],
7    'revenue' : [200,600,400,300,500,200,400,300,300,700,100,600,100]
8    })
9
10pd.pivot_table(
11    df,
12    values = ['revenue','customer'],
13    aggfunc = {'revenue':'sum','customer':'count'},
14    index = 'store',
15    columns = 'gender'
16)

行動規範の内容に同意します

回答2件

ベストアンサー

はじめに（本題とはあまり関係ありませんが）、上記の例の場合、df['revenue'].count() と df['customer'].count() と同じ値となる、つまりdf['revenue'].sum() / df['customer'].count() は df['revenue'].sum() / df['revenue'].count() と置き換えられるので、その結果

Python
1res = pd.pivot_table(
2    df,
3    aggfunc = {'revenue': 'mean'},
4    index = 'store',
5    columns = 'gender'
6)

で良いのではないかと思うのですがどうでしょうか？

それはそれとしてここからが本題なのですが、質問のように複数の列を使って計算にてピボットテーブルを作成したい場合は、pandas.pivot_table()ではなくGroupBy.apply()を使うと良いかと思います。
今回の例の場合は DataFrame.groupby() の引数に縦軸に割り当てたい'store'と横軸に割り当てたい'gender'を指定し、apply()にて目的となる値を計算し、出力されたDataFrameをunstack()することにてピボットテーブルが作成できます。

Python
1def func(data):
2    return data['revenue'].sum() / data['customer'].count()
3
4res = df.groupby(['store','gender']).apply(func).unstack()
5#gender  female        male
6#store
7#nagoya   650.0  100.000000
8#osaka    350.0  250.000000
9#tokyo    350.0  433.333333

投稿2019/09/26 02:06

magichan

総合スコア15898

マルチインデックスを解除したのではだめでしょうか？

python
1df1 = pd.pivot_table( df, values = ['revenue','customer'], aggfunc = {'revenue':'sum','customer':'count'}, index = 'store', columns = 'gender')
2
3df1
4
5# マルチインデックスを解除
6df1.columns = ['_'.join(col) for col in df1.columns]
7df1
8
9df1["price_female"] = df1["revenue_female"] / df1["customer_female"]
10df1["price_male"] = df1["revenue_male"] / df1["customer_male"]
11df1