pandasのgroupbyメソッドで7日間のデータの平均を求めたい。

現在以下のようなデータの解析を行っています。

日付(DatetimeIndex)	曜日	商品名	売上数量
2017-01-01	日曜日	...	12
2017-01-02	月曜日	...	94
2017-01-03	火曜日	...	32
2017-01-04	水曜日	...	12
2017-01-05	木曜日	...	18
2017-01-06	金曜日	...	25
2017-01-07	土曜日	...	19
2017-01-08	日曜日	...	21
...	...	...	...

行いたい事はこのデータに対して、2017年1月1日からの7日間の平均と標準偏差を取る事です。

そこで以下のようなコードで分析を行いました。

python
1df = pd.read_csv('data.csv', encoding='shift-jis')
2
3# indexはDatetimeIndexに変換済みです
4year_group  = df.index.year.rename('year')
5month_group = df.index.month.rename('month')
6week__group = df.index.week.rename('week')
7df['週平均'] = df.groupby([year_group, month_group, week_group])['売上数量'].transform('mean')
8df['週標準偏差'] = df.groupby([year_group, month_group, week_group])['売上数量'].transform('std')

すると以下のような結果が返ってきました。

| 週平均週標準偏差
日付
2017-01-01 12.000000 NaN
2017-01-02 33.333333 27.83080
2017-01-03 33.333333 27.83080
2017-01-04 33.333333 27.83080
2017-01-05 33.333333 27.83080
2017-01-06 33.333333 27.83080
2017-01-07 33.333333 27.83080
2017-01-08 24.834198 12.91382

私は、2017年1月1日からの7日間ごとの平均と標準偏差がほしいのですが、pandasのgroupbuメソッドで行うと、曜日区切りで計算してしまい、2017年1月1日は日曜日始まりなため、私が行いたい事が正しく計算できません。

どのような操作を行えば、曜日ではなく7日間の平均や標準偏差を取得できるのか、知見をいただければと思います。

宜しくお願いします。

行動規範の内容に同意します

回答2件

resample()メソッドを使うと簡単です。

python
1Mean_weekly=df.resample('W').mean()
2Std_weekly=df.resample('W').std()

resampleの引数はまとめたい単位です。W(週)以外にMやDもあります。これでまとめられたオブジェクトができたので、やりたい処理をメソッドとして追加すれば完成です

投稿2018/07/10 07:09

R.Shigemori

総合スコア3376

pinocookie

2018/07/10 07:12

回答ありがとうございます！以前の自分の質問内容を元に、自力解決できました！ほとんど同じ手法になりました。ありがとうございました。

行動規範の内容に同意します

自己解決

resampleメソッドを使用して、7日間の情報を得る事ができました。

python
1df['週平均'] = df['売上数量'].resample('7D').transform('mean')
2df['週標準偏差'] = df['売上数量'].resample('7D').transform('std')

| 週平均週標準偏差
日付
2017-01-01 30.287450 25.82696
2017-01-02 30.287450 25.82696
2017-01-03 30.287450 25.82696
2017-01-04 30.287450 25.82696
2017-01-05 30.287450 25.82696
2017-01-06 30.287450 25.82696
2017-01-07 30.287450 25.82696
2017-01-08 24.834198 12.91382