1分データが連続している部分を一つのグループにまとめたい

下記の例でいうと、
"2015-01-01 00:06:00" ～ "2015-01-01 00:08:00"、
"2015-01-01 00:15:00" ～ "2015-01-01 00:26:00"、
"2015-01-01 00:36:00" ～ "2015-01-01 00:38:00"

を一つのグループにまとめたい、ということになります。

ちなみに、下記のコードでできましたが、もっとpythonらしい、スマートな書き方をしたいです。
恐らく、pandasのcumsum()でできると思うのですが、コードが思いつきませんでした。

python
1def get_region(mydf):
2    mylist = list(mydf.index)
3    mylabel = [None for x in mylist]
4    l = 0
5    for i in range(len(mylist)-1):
6        curr_time = mylist[i]
7        next_time = mylist[i+1]
8        delta_second = (next_time - curr_time).total_seconds()
9        if delta_second <= 60.1:
10            mylabel[i] = l
11            if (i==len(mylist)-2):
12                mylabel[i+1] = l
13        else:
14            mylabel[i] = l
15            l += 1
16        if (delta_second > 60.1 and i == len(mylist)-2):
17            mylabel[i+1] = l+1
18    return mylabel

よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

(mydf.index.to_series().diff() != pd.Timedelta('1min')).cumsum() で良いかと思います。

Python
1import pandas as pd
2
3mydf = pd.DataFrame({'Time':['2015/1/1 0:06',
4                             '2015/1/1 0:07',
5                             '2015/1/1 0:08',
6                             '2015/1/1 0:15',
7                             '2015/1/1 0:16',
8                             '2015/1/1 0:17',
9                             '2015/1/1 0:18',
10                             '2015/1/1 0:19',
11                             '2015/1/1 0:20',
12                             '2015/1/1 0:21',
13                             '2015/1/1 0:22',
14                             '2015/1/1 0:23',
15                             '2015/1/1 0:24',
16                             '2015/1/1 0:25',
17                             '2015/1/1 0:26',
18                             '2015/1/1 0:36',
19                             '2015/1/1 0:37',
20                             '2015/1/1 0:38'],
21                   'Value': 0})
22
23mydf['Time'] = pd.to_datetime(mydf['Time'])
24mydf = mydf.set_index('Time')
25
26mydf['TimeGroup'] = (mydf.index.to_series().diff() != pd.Timedelta('1min')).cumsum()
27print(mydf)
28#                     Value  TimeGroup
29#Time
30#2015-01-01 00:06:00      0          1
31#2015-01-01 00:07:00      0          1
32#2015-01-01 00:08:00      0          1
33#2015-01-01 00:15:00      0          2
34#2015-01-01 00:16:00      0          2
35#2015-01-01 00:17:00      0          2
36#2015-01-01 00:18:00      0          2
37#2015-01-01 00:19:00      0          2
38#2015-01-01 00:20:00      0          2
39#2015-01-01 00:21:00      0          2
40#2015-01-01 00:22:00      0          2
41#2015-01-01 00:23:00      0          2
42#2015-01-01 00:24:00      0          2
43#2015-01-01 00:25:00      0          2
44#2015-01-01 00:26:00      0          2
45#2015-01-01 00:36:00      0          3
46#2015-01-01 00:37:00      0          3
47#2015-01-01 00:38:00      0          3