購買者(CustomerID)の各合計購買金額を算出し、さらに金額をベースに降順に並び替えをします。
カラムがCustomerIDと合計金額のあるテーブルを作成します。そこから、購買者を10等分にグループ分けします(例:100人いたら、10人ずつにグループ分けします。)。それぞれのグループでの合計購買金額の範囲と、それぞれの金額合計値を算出してください。この結果を用いて、パレートの法則を確かめるため、それぞれのグループが売上の何割を占めるか(Pandas.Series形式で売上が小さいグループが先頭、大きいほど後になるようにしてください)。
注意点
- 以下の関数homeworkの!!WRITE ME!!に処理を書いてください。(「!!WRITE ME!!」は消して、記入してください。)
- 返り値がPandas.Series形式になるようにしてください。
*my_result=pd.Series([0,0.01,0.02,0.021,0.022,0.025,0.025,0.1,0.2,0.6]) のような形になります。(売上割合は昇順にして、合計は1になるようにします。)
import pandas as pd
init part(データの読み込みと前処理)
file_url = "http://archive.ics.uci.edu/ml/machine-learning-databases/00352/Online%20Retail.xlsx"
online_retail_data = pd.ExcelFile(file_url)
online_retail_data_table = online_retail_data.parse('Online Retail')
online_retail_data_table['cancel_flg'] = online_retail_data_table.InvoiceNo.map(lambda x:str(x)[0])
数字があるものとIDがNullでないものが対象
target_online_retail_data_tb = online_retail_data_table[(online_retail_data_table.cancel_flg == '5')
& (online_retail_data_table.CustomerID.notnull())]
target_online_retail_data_tb = target_online_retail_data_tb.assign(TotalPrice=target_online_retail_data_tb.Quantity * target_online_retail_data_tb.UnitPrice)
working place. everything
def homework(target_online_retail_data_tb):
!!WRITE ME!!
return my_result
あなたの回答
tips
プレビュー