1時間毎の集計を出したい

Pandasを勉強中の者です。
以下、初歩的な内容と思いますが、ご教授願います。

実現したいこと

対象となる基データ

user	start	end
AAA	2024/03/21 10:30:45	2024/03/21 13:39:45
AAA	2024/03/21 13:48:32	2024/03/21 15:21:12
AAA	2024/03/21 17:18:01	2024/03/21 18:56:47
BBB	2024/03/21 12:43:05	2024/03/22 09:05:32

期待するデータ

datetime	count
2024/03/21 10:00:00	1
2024/03/21 11:00:00	1
2024/03/21 12:00:00	2
2024/03/21 13:00:00	2
2024/03/21 14:00:00	2
2024/03/21 15:00:00	2
2024/03/21 16:00:00	1
2024/03/21 17:00:00	2
2024/03/21 18:00:00	2
2024/03/21 19:00:00	1
2024/03/21 20:00:00	1
2024/03/21 21:00:00	1
2024/03/21 22:00:00	1
2024/03/21 23:00:00	1
2024/03/21 24:00:00	1
2024/03/22 01:00:00	1
2024/03/22 02:00:00	1
2024/03/22 03:00:00	1
2024/03/22 04:00:00	1
2024/03/22 05:00:00	1
2024/03/22 06:00:00	1
2024/03/22 07:00:00	1
2024/03/22 08:00:00	1
2024/03/22 09:00:00	1

基データのstart列とend列の期間から、1時間毎になるようにカウントしたいです。

該当のソースコード

python
1import pandas as pd
2import io
3
4csv_data = """
5id,start,end
6AAA,2024/03/21 10:30:45,2024/03/21 13:39:45
7AAA,2024/03/21 13:48:32,2024/03/21 15:21:12
8AAA,2024/03/21 17:18:01,2024/03/21 18:56:47
9BBB,2024/03/21 12:43:05,2024/03/22 09:05:32
10"""
11
12df = pd.read_csv(io.StringIO(csv_data), dtype=str)
13df['start'] = pd.to_datetime(df['start'])
14df['end'] = pd.to_datetime(df['end'])
15
16df = df.sort_values('start')
17df = df.apply(lambda x: pd.date_range(x['start'], x['end'], freq='H'), axis=1).explode().value_counts(sort=False)
18df = df.to_frame('count').reset_index(names='datetime')
19df['datetime'] = df['datetime'].dt.round('H')
20df = df[['datetime', 'count']].groupby('datetime').sum()
21print(df)

試したこと

色々試みましたが、期待するデータの通りにならず、下の太字count:3となってしまいます。
同時刻内にユーザが重複しても、カウントされないようにしたいです。

上記コードから出力結果

datetime	count
2024/03/21 10:00:00	1
2024/03/21 11:00:00	1
2024/03/21 12:00:00	2
2024/03/21 13:00:00	2
2024/03/21 14:00:00	3
2024/03/21 15:00:00	2
2024/03/21 16:00:00	1
2024/03/21 17:00:00	2
2024/03/21 18:00:00	2
2024/03/21 19:00:00	1
2024/03/21 20:00:00	1
2024/03/21 21:00:00	1
2024/03/21 22:00:00	1
2024/03/21 23:00:00	1
2024/03/21 24:00:00	1
2024/03/22 01:00:00	1
2024/03/22 02:00:00	1
2024/03/22 03:00:00	1
2024/03/22 04:00:00	1
2024/03/22 05:00:00	1
2024/03/22 06:00:00	1
2024/03/22 07:00:00	1
2024/03/22 08:00:00	1
2024/03/22 09:00:00	1

行動規範の内容に同意します

回答2件

ベストアンサー

同時刻内にユーザが重複しても、カウントされないようにしたいです。

id 毎にカウントする様にして(groupby())、id と時刻で重複列を取り除く様にして(drop_duplicates())みてはどうでしょうか。

python
1df = df.sort_values('start')
2df = df.groupby('id').apply(lambda x: x.apply(
3         lambda y: pd.date_range(y['start'], y['end'], freq='H'), axis=1)
4                     .explode().value_counts(sort=False).to_frame('count')
5                     .reset_index(names='datetime'), include_groups=False)\
6       .reset_index()
7df['datetime'] = df['datetime'].dt.round('H')
8df = df.drop_duplicates(['id', 'datetime'])
9df = df[['datetime', 'count']].groupby('datetime').sum()
10print(df)

投稿2024/09/11 13:34

編集2024/09/11 13:44

melian

総合スコア21274

その時間が含まれるかどうかを bool で持っておいて、id毎に or をとる形にすれば、重複カウントされなくなります。最後に合計をとればほしいデータが得られるかと思います。

boolデータを作るには、explode を使うよりも、最初に最小値と最大値からSeriesを作ってしまったほうが簡単にできると思います。

python
1ts = pd.date_range(df['start'].min().floor('h'), df['end'].max(), freq='h').to_series()
2result = df.apply(
3    lambda x: (x['start'].floor('h') <= ts) & (ts <= x['end']), axis=1
4).groupby(df['id']).any().sum()
5print(result)