pandasで複数の条件で新しく列を生成する。

現在下記のようなデータを取得しています。

日付(datetimeindex)	時間(h)	ID	売れ数
2015-01-01 00:00:00	4	10	120
2015-01-01 00:00:00	4	3	100
2015-01-01 00:00:00	6	10	110
2015-01-01 00:00:00	1	2	90
2015-01-02 00:00:00	4	10	80
2015-01-02 00:00:00	1	3	70
2015-01-02 00:00:00	2	10	130
2015-01-02 00:00:00	5	5	140
2015-01-02 00:00:00	6	10	110

このデータに新しく同じ時間・同じIDの1日前のデータを付け加えたいと考えています。

この場合であれば

日付(datetimeindex)	時間(h)	ID	売れ数
2015-01-02 00:00:00	4	10	80

このデータに

日付(datetimeindex)	時間(h)	ID	売れ数
2015-01-01 00:00:00	4	10	120

こちらの120という売れ数を付け加え、

日付(datetimeindex)	時間(h)	ID	売れ数	前日売れ数
2015-01-02 00:00:00	4	10	80	120

というようなデータです。

これをデータフレーム全体に適用させるにはどのようにすればよろしいでしょうか。
宜しくお願いします。

行動規範の内容に同意します

回答2件

ベストアンサー

いろいろ方法はありそうだけど・・。
とりあえずpandas.merge() 使って書いてみました。

Python
1import pandas as pd
2import io
3
4data = """
5日付,時間,ID,売れ数
62015-01-01 00:00:00,4,10,120
72015-01-01 00:00:00,4,3,100
82015-01-01 00:00:00,6,10,110
92015-01-01 00:00:00,1,2,90
102015-01-02 00:00:00,4,10,80
112015-01-02 00:00:00,1,3,70
122015-01-02 00:00:00,2,10,130
132015-01-02 00:00:00,5,5,140
142015-01-02 00:00:00,6,10,110
15"""
16
17df = pd.read_csv(io.StringIO(data), parse_dates=['日付'], index_col='日付')
18
19df1 = df.reset_index()
20df2 = df.shift(1, freq='D').reset_index().rename(columns={'売れ数':'前日売れ数'})
21res = pd.merge(df1, df2, on=['日付', '時間', 'ID'], how='left').set_index('日付')
22print(res)
23#            時間  ID  売れ数  前日売れ数
24#日付
25#2015-01-01   4  10  120    NaN
26#2015-01-01   4   3  100    NaN
27#2015-01-01   6  10  110    NaN
28#2015-01-01   1   2   90    NaN
29#2015-01-02   4  10   80  120.0
30#2015-01-02   1   3   70    NaN
31#2015-01-02   2  10  130    NaN
32#2015-01-02   5   5  140    NaN
33#2015-01-02   6  10  110  110.0

投稿2018/07/24 10:57

magichan

総合スコア15898

pinocookie

2018/07/28 05:53

回答ありがとうございます。うまくいきました。！実際に使用しているデータには時間が抜けていたりしたので、以下のように同じ時間帯での平均値を補間しました。 res = pd.merge(df1, df2, on=['日付', '時間', 'ID'], how='left').set_index('日付') nan_slice = np.isnan(res['前日売れ数']) res['前日売れ数'].loc[nan_slice] = res['前日売れ数'].groupby([df['ID'], df['時間']]).transform('mean').loc[nan_list]

行動規範の内容に同意します