pythonで顧客のランク付けをする方法

顧客と購買金額が紐づいたデータに対して、
購買金額（合計）の大きさでHigh（上位30%）・Middle・Light（下位30%）の3層に
顧客をランク付けし、その列を新たにデータフレームに加える方法を
教えていただけますでしょうか。

＊分析ツールはpythonを使用しております。

＊groupbyで顧客別に集計してランキングの番号をつける方法は思いついたのですが、
上記の通り上位30%層～中間層～下位30%層に分類する方法がわかりませんでした。

＊最終的には以下のようなデータフレームを得たいと思っております。
|#|顧客id|購買金額|ランク（追加した列）
|:--|:--:|--:|
|1|1|100|Middle
|2|2|150|Middle
|3|3|50|Middle
|4|4|500|High
|5|1|100|Middle
|6|5|500|High
|7|6|100|Middle
|8|3|100|Middle
|9|7|100|Light
|10|8|100|Light

お忙しいところ恐れ入りますが、
ご助言いただけますと幸いです。
よろしくお願いいたします。

行動規範の内容に同意します

回答2件

groupby().sum() した結果に対して pandas.qcut() を使用してカテゴリ変数を追加すると良いかと思います。

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.qcut.html

あとは元のデータにランク情報をDataFrame.join()やDataFrame.merge()を使って反映させるだけです。

以下に簡単ですがサンプルを書きましたので参考にしてください

Python
1import pandas as pd
2import numpy as np
3
4N=100
5# 適当なデータを生成
6df = pd.DataFrame({
7    '顧客id':  np.random.randint(1,11,N),
8    '購買金額': np.random.choice(range(50,1000+1,50),N),
9})
10print(df.head())
11#   購買金額  顧客id
12#0   800     2
13#1   300     4
14#2   650    10
15#3   600     1
16#4   250     9
17
18# 購入金額の合計に応じてユーザーにランクのラベルを付ける
19user_df = df.groupby('顧客id')['購買金額'].sum().to_frame()
20user_df['ランク'] = pd.qcut(user_df['購買金額'], [0., 0.3, 0.7, 1.], labels=['Light','Middle','High'])
21print(user_df)
22#      購買金額     ランク
23#顧客id
24#1     7050    High
25#2     3800   Light
26#3     3700   Light
27#4     6000  Middle
28#5     7500    High
29#6     1300   Light
30#7     6400  Middle
31#8     5600  Middle
32#9     4100  Middle
33#10    7300    High
34
35# 元のデータにランクのラベルを反映
36df = df.merge(user_df.loc[:,['ランク']].reset_index(), on='顧客id', how='left')
37print(df.head())
38   購買金額  顧客id     ランク
39#0   800     2   Light
40#1   300     4  Middle
41#2   650    10    High
42#3   600     1    High
43#4   250     9  Middle