pandasで特定の行ごとの平均をとり、時刻のみ指定してデータを抽出方法

前提・実現したいこと

pandasのDateTimeIndex型のインデックスとなっているデータで、Aのデータのみ平均化を行った後、時刻のみ指定してデータを抽出方法があれば、ご教授頂きたいです。

A B
TIME
2019-01-15 00:00:00.400 10 200
2019-01-15 00:10:00.400 6 2051
2019-01-15 00:20:00.400 10 5
2019-01-15 00:30:00.400 2 123
2019-01-15 00:40:00.400 11 1234
2019-01-15 00:50:00.400 7 1342
2019-01-15 01:00:00.400 10 61234
2019-01-15 01:10:00.400 10 200
2019-01-15 01:20:00.400 6 2051
2019-01-15 01:30:00.400 10 5
2019-01-15 01:40:00.400 2 123
2019-01-15 01:50:00.400 11 1234
2019-01-15 02:00:00.400 7 1342
2019-01-15 02:10:00.400 10 6234
2019-01-15 02:20:00.400 10 13234
2019-01-15 02:30:00.400 10 6264
2019-01-15 02:40:00.400 10 6124
2019-01-15 02:50:00.400 10 6234

出てほしい結果

1行目は0時台10+6+10+2+11+7=46を平均した7.66666666667を、
2行目は1時台10+10+6+10+2+11=49を平均した8.16666666667を表示させたいです。
A B
TIME
2019-01-15 01:00:00.400 7.66666666667 61234
2019-01-15 02:00:00.400 8.16666666667 1342
###試したこと
meanで全体の平均を出す方法は分かったのですが、時刻のみ指定してで表示方法が分かりませんでした。

行動規範の内容に同意します

回答2件

ベストアンサー

時系列データの集計にはresample()が便利です。
Aの"時"についての平均は以下のようになります。

python
1df.A.resample('H').mean()
2
3# TIME
4# 2019-01-15 00:00:00    7.666667
5# 2019-01-15 01:00:00    8.166667
6# 2019-01-15 02:00:00    9.500000
7# Freq: H, Name: A, dtype: float64

平均以外にも最大、最小などのほか、独自の集計も可能です。

https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#resampling

Aは平均、Bは最初の値をとりたい場合は、

python
1df.resample('H').aggregate({'A': 'mean', 'B': 'first'})
2
3#                             A      B
4# TIME                                
5# 2019-01-15 00:00:00  7.666667    200
6# 2019-01-15 01:00:00  8.166667  61234
7# 2019-01-15 02:00:00  9.500000   1342

もとの時刻も残したい場合はこんな感じで。

python
1(df.reset_index()
2   .resample('H', on='TIME')
3   .aggregate({'TIME': 'first', 'A': 'mean', 'B': 'first'})
4   .set_index('TIME'))
5
6#                                 A      B
7# TIME                                    
8# 2019-01-15 00:00:00.400  7.666667    200
9# 2019-01-15 01:00:00.400  8.166667  61234
10# 2019-01-15 02:00:00.400  9.500000   1342

投稿2019/11/19 02:07

bsdfan

総合スコア4794

fox_cat

2019/11/19 07:52

前回に引き続き回答ありがとうございます。実行してみたところ無事動作しました。最初の場合はfirstだと分かったのですが、最後の場合はどのようにすればいいのでしょうか？

bsdfan

2019/11/19 09:07

last でできます。

fox_cat

2019/11/19 16:39

ありがとうございます。無事表示できました！

行動規範の内容に同意します

.groupby() の出番ですね。

時刻ごと、とのことなので時刻でグルーピングして平均化すれば良いと思います。

期待されている結果をみる限りA列はもとの DataFrame の0時代の値の平均を使ってますが B列と index は 01:00:00 の行の値を使う(1時間ずれている)ということだと仮定して計算してみました。

python
1import pandas as pd
2df = pd.read_csv('data.csv', index_col=0)  # データを読み込む
3df2 = df.reset_index()
4
5#                       TIME   A     B
6# 0  2019-01-15 00:00:00.400  10   200
7# 1  2019-01-15 00:10:00.400   6  2051
8# 2  2019-01-15 00:20:00.400  10     5
9# 3  2019-01-15 00:30:00.400   2   123
10# 4  2019-01-15 00:40:00.400  11  1234
11
12# 時刻の列を作る
13df2['HOUR'] = df2['TIME'].apply(lambda x: x[11:13]).astype(int)
14
15#                       TIME   A     B  HOUR
16# 0  2019-01-15 00:00:00.400  10   200     0
17# 1  2019-01-15 00:10:00.400   6  2051     0
18# 2  2019-01-15 00:20:00.400  10     5     0
19# 3  2019-01-15 00:30:00.400   2   123     0
20# 4  2019-01-15 00:40:00.400  11  1234     0
21
22group = df2.groupby('HOUR')
23
24# A の時刻ごとの平均の計算
25group_a = group.mean()['A']
26
27# HOUR
28# 0    7.666667
29# 1    8.166667
30# 2    9.500000
31# Name: A, dtype: float64
32
33# TIME 列、 B 列の先頭を取る
34group_b = group.first().drop('A', axis=1)
35
36#                          TIME      B
37# HOUR                                
38# 0     2019-01-15 00:00:00.400    200
39# 1     2019-01-15 01:00:00.400  61234
40# 2     2019-01-15 02:00:00.400   1342
41# 期待する形にconcat するためにわざと index をずらす
42group_b.index = [x - 1 for x in group_b.index]
43
44# 結合
45out = pd.concat([group_a, group_b], axis=1)[['TIME', 'A', 'B']].dropna() # index をずらした分 NaN が現れるので drop
46
47# 列をインデックスに戻すのと型の修正
48out.index = out['TIME']
49out = out.drop('TIME', axis=1)
50out['B'] = out['B'].astype(int)
51
52print(out)
53#                                 A      B
54# TIME                                    
55# 2019-01-15 01:00:00.400  7.666667  61234
56# 2019-01-15 02:00:00.400  8.166667   1342

ちょっとデータフレームを整形するために色々トリッキーなことしてますが、あんまり関係ないです。
時刻の列を作って、groupby メソッドを使い、グルーピングした結果に対し計算を施すのがこの課題のキモだと思います。

投稿2019/10/24 16:53

編集2019/10/24 17:02

515hikaru

総合スコア19

fox_cat

2019/11/18 13:24

# 時刻の列を作る df2['HOUR'] = df2['TIME'].apply(lambda x: x[11:13]).astype(int) この部分のlambda以降が分からないのですが、どのようなことを行っているのでしょうか？

515hikaru

2019/11/18 13:39

`2019-01-15 00:00:00.400` をただの文字列だと思うと、11文字目と12文字目が時間を表しています。(0時とか1時とか11時とか)それだけ取り出す処理が lambda の中身です。真面目にやるなら下記のリンクのように datetime 型を使って時間を取得するほうが良いのですが、これを書いているときはそこまで気が回っていなかったようです。。 https://note.nkmk.me/python-pandas-datetime-timestamp/

行動規範の内容に同意します

あなたの回答