現在下記のようなデータを取り扱っています。
python
1test = pd.DataFrame({ '日付' : ['2016-04-01','2016-04-01','2016-04-01','2016-04-01','2016-04-01','2016-04-01', 2 '2016-04-02','2016-04-02','2016-04-02','2016-04-02','2016-04-02','2016-04-02', 3 '2016-04-03','2016-04-03','2016-04-03'], 4 '時間' : ['6','12','18','6','12','18', 5 '6','12','18','6','12','18', 6 '6','12','18'], 7 'ID' : ['1','1','1','2','2','2', 8 '1','2','1','2','1','2', 9 '1','1','1'], 10 '売上' : [1,2,1,3,4.5,1, 11 2,3,6,7,4,8, 12 10,2,5] 13 }) 14 15test.index = pd.to_datetime(test['日付']) 16test.index.name = 'index' 17test
下記のような日付ごと・時間帯ごと・IDごとのデータになっています。
|index|日付|時間|ID|売上|
|:--|:--|:--|:--|
|index||
2016-04-01| 2016-04-01| 6| 1| 1.0
2016-04-01| 2016-04-01| 12| 1| 2.0
2016-04-01| 2016-04-01| 18| 1| 1.0
2016-04-01| 2016-04-01| 6| 2| 3.0
2016-04-01| 2016-04-01| 12| 2| 4.5
2016-04-01| 2016-04-01| 18| 2| 1.0
2016-04-02| 2016-04-02| 6| 1| 2.0
2016-04-02| 2016-04-02| 12| 2| 3.0
2016-04-02| 2016-04-02| 18| 1| 6.0
2016-04-02| 2016-04-02| 6| 2| 7.0
2016-04-02| 2016-04-02| 12| 1| 4.0
2016-04-02| 2016-04-02| 18| 2| 8.0
2016-04-03| 2016-04-03| 6| 1| 10.0
2016-04-03| 2016-04-03| 12| 1| 2.0
2016-04-03| 2016-04-03| 18| 1| 5.0
このデータ下記のような操作を行う事で任意の過去n日前のデータを抽出で来ています。
python
1test1 = test.reset_index() 2test1 3 4test2 = test.shift(1, freq='D').reset_index().rename(columns={'売上': '前日売上'}) 5test2 6 7res = pd.merge(test1, test2.drop(['日付'], axis=1), on=['index', '時間', 'ID'], how='left').set_index('index') 8res
index | 日付 | 時間 | ID | 売上 | 前日売上 |
---|---|---|---|---|---|
2016-04-01 | 2016-04-01 | 6 | 1 | 1.0 | NaN |
2016-04-01 | 2016-04-01 | 12 | 1 | 2.0 | NaN |
2016-04-01 | 2016-04-01 | 18 | 1 | 1.0 | NaN |
2016-04-01 | 2016-04-01 | 6 | 2 | 3.0 | NaN |
2016-04-01 | 2016-04-01 | 12 | 2 | 4.5 | NaN |
2016-04-01 | 2016-04-01 | 18 | 2 | 1.0 | NaN |
2016-04-02 | 2016-04-02 | 6 | 1 | 2.0 | 1.0 |
2016-04-02 | 2016-04-02 | 12 | 2 | 3.0 | 4.5 |
2016-04-02 | 2016-04-02 | 18 | 1 | 6.0 | 1.0 |
2016-04-02 | 2016-04-02 | 6 | 2 | 7.0 | 3.0 |
2016-04-02 | 2016-04-02 | 12 | 1 | 4.0 | 2.0 |
2016-04-02 | 2016-04-02 | 18 | 2 | 8.0 | 1.0 |
2016-04-03 | 2016-04-03 | 6 | 1 | 10.0 | 2.0 |
2016-04-03 | 2016-04-03 | 12 | 1 | 2.0 | 4.0 |
2016-04-03 | 2016-04-03 | 18 | 1 | 5.0 | 6.0 |
この手法では任意の過去の日付のデータを取得できます。
ただ今回計算したいことは、たとえば2016年4月3日の時間帯12時のIDが1番のデータに、2016年4月1日と2016年4月2日の同じ時間帯・同じIDの売上の平均値や中央値を入れるという作業です。
上記のコードで、1日前と2日前のデータを新たに列に追加し、それらをapply関数などで平均を取ればできるとは思いますが、こういった列を別途作成することなく以上を計算する事はできるのでしょうか。
宜しくお願いします。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/08/04 08:06
2018/08/06 00:04
2018/08/07 06:27
2018/08/07 07:12