Pythonでのデータの集計

前提・実現したいこと

以下のようなログデータをPythonで読み込み、指定期間(1秒、5秒、10秒など)で集計したいです。
単にdataAの合計値などであれば「resample」で実現できることを教えていただいたのですが
指定期間(例えば1秒間)で、typeが[UP]になっているログのdataAの合計値や平均値
typeが[DN]になっているログのdataAの合計値や平均値
といった条件付きの集計を行いたいです。
ループで回しながら行う方法しか思いつきませんでした。
良い方法があれば教えていただきたいです。
よろしくお願いします。

====ログ(log.csv)====
date,dataA,type
2018-07-01 12:01:01.05236, 9863, 'UP'
2018-07-01 13:01:01.12761, 1005, 'DN'
2018-07-01 13:01:01.22165, 1211, 'DN'
2018-07-01 15:01:44.72161, 2254, 'UP'
2018-07-01 16:01:52.56281, 3816, 'DN'

====出力イメージ====
date, UP_sum, UP_avg, DN_sum, DN_avg
2018-07-01 12:01:01, 9863, 9863, 2216, 1108

補足情報（FW/ツールのバージョンなど）

Python 3.X

行動規範の内容に同意します

回答2件

とりあえずデータフレームにできたとして、

python
1df[df["type"] == "UP"]

でtypeが"UP"のものだけ取り出して新しいデータフレームを作れますから、それに対してresampleかければ良いでしょう。

投稿2018/07/19 15:53

hayataka2049

総合スコア30933

ベストアンサー

DataFrame.resample().apply() を使用して出力イメージに合う行データを生成すると良いかと思います。
以下は動作サンプル

Python
1import pandas as pd
2import io
3
4data = """
5date,dataA,type
62018-07-01 12:01:01.05236, 9863, 'UP'
72018-07-01 13:01:01.12761, 1005, 'DN'
82018-07-01 13:01:01.22165, 1211, 'DN'
92018-07-01 15:01:44.72161, 2254, 'UP'
102018-07-01 16:01:52.56281, 3816, 'DN'
11"""
12
13
14df = pd.read_csv(io.StringIO(data),
15                 parse_dates=['date'],
16                 index_col='date',
17                 quotechar = "'",
18                 skipinitialspace = True )
19
20# 生成したい行データをSeries型で返す関数
21def f(d):
22    new_row = pd.Series()
23    new_row.at['UP_sum'] = d.loc[d.type == 'UP', 'dataA'].sum()
24    new_row.at['UP_avg'] = d.loc[d.type == 'UP', 'dataA'].mean()
25    new_row.at['DN_sum'] = d.loc[d.type == 'DN', 'dataA'].sum()
26    new_row.at['DN_avg'] = d.loc[d.type == 'DN', 'dataA'].mean()
27    return new_row
28
29yy = df.resample('1H').apply(f)
30print(yy)
31#                     UP_sum  UP_avg  DN_sum  DN_avg
32#date
33#2018-07-01 12:00:00  9863.0  9863.0     0.0     NaN
34#2018-07-01 13:00:00     0.0     NaN  2216.0  1108.0
35#2018-07-01 14:00:00     0.0     NaN     0.0     NaN
36#2018-07-01 15:00:00  2254.0  2254.0     0.0     NaN
37#2018-07-01 16:00:00     0.0     NaN  3816.0  3816.0