PandasのDataFrameを条件と数で区切る　

Question

### 前提

Python3
Pandas

### 実現したいこと

以下のようなPandasのDataFrameがあります。
実際は30万行ほどあり、カラムももっと多いです。

|time|data1|data2|
|:--|:--:|--:|
|12:53:31|101|1|
|12:53:32|102|1|
|12:53:32|105|1|
|12:53:33|102|1|
|12:53:34|103|1|
|12:53:35|99|1|
|12:53:36|100|1|
|12:53:37|110|1|
|12:53:38|112|0|
|12:53:39|98|0|
|12:53:40|92|0|
|12:53:41|100|0|
|12:53:42|104|0|
|12:53:42|105|0|
|12:53:43|97|1|
|12:53:44|99|1|
|12:53:45|100|1|
|12:53:46|103|1|
|12:53:47|102|1|
|12:53:48|101|1|
|12:53:49|108|1|
|12:53:50|91|1|
|12:53:51|99|0|
|12:53:52|93|0|
|12:53:52|99|0|
|12:53:53|100|0|
|12:53:54|101|1|
|12:53:55|102|1|
|12:53:56|97|1|
|12:53:47|100|0|
|12:53:48|100|0|
|12:53:49|101|0|
|・・・|||

timeがindexになっており、data2は他の値に応じてつけられた判定用のカラムです。

このとき、
1が連続して5行以上現れたときに、
その最初の5行のdata1の値を使ってなにかしらを計算し結果を出力
5行目以降の1がある列とその下に連続する0の行は無視して、
また1が連続して5行以上現れるところで同じ計算をする
といった作業を行いたいです。
つまり、下のようになると嬉しいです。

|time|data1|data2|
|:--|:--:|--:|
|12:53:31|101|1|
|12:53:32|102|1|
|12:53:32|105|1|
|12:53:33|102|1|
|12:53:34|103|1|

→この5行から計算（例えば101,102,105,102,103の平均値を求めるなど）

その下のいくつかの行を飛ばし、次に計算するのはまた1が表れるこの5行

|time|data1|data2|
|:--|:--:|--:|
|12:53:43|97|1|
|12:53:44|99|1|
|12:53:45|100|1|
|12:53:46|103|1|
|12:53:47|102|1|

といった具合です。

Pandasでは1行目からループを回して計算するのは悪手だと聞いています。
どのように書くのが良いでしょうか。
実際は5行ではなくもっと長い(5000行)塊を探す必要があります。
また、見つけた塊に対する計算処理も平均値ではなくもっと複雑な計算です。

### 試したこと

.groupbyも違いますし、
https://teratail.com/questions/110232
これも少し違います。

お力を貸していただければ幸いです。

Accepted Answer

以下のような流れでできると思います。

- `shift`と`cumsum`にて同じ値が続くグループに番号を振る
- `data2`が`1`であるグループのうち、グループサイズが5以上の行を抽出する
- 抽出結果に対して再びグループ番号で集計し`apply`にてグループ毎に計算を行う
- 計算では`head`にて先頭5行のみを利用する

あるいはグループ番号を振った後にグループ内でサブ番号を振って、サブ番号が5以下の行を抽出しておいたほうが、後のグループ化→計算処理で楽かもしれません。

```Python

import pandas as pd
import numpy as np

data2 = np.array([1,1,1,1,1,1,0,0,1,0,1,1,1,1,1,0])
v1 = np.arange(1,data2.shape[0]+1)
df = pd.DataFrame({'v1':v1, 'data2':data2})
print(df)
"""
    v1  data2
0    1      1
1    2      1
2    3      1
3    4      1
4    5      1
5    6      1
6    7      0
7    8      0
8    9      1
9   10      0
10  11      1
11  12      1
12  13      1
13  14      1
14  15      1
15  16      0
"""

# data2が1で5連続以上を抽出
flg = df['data2']
df['grp'] = (flg != flg.shift(1,fill_value=flg[0])).cumsum()
rows = df[flg == 1].groupby('grp')['grp'].size()
grp = rows[rows>=5].index
df2 = df[df['grp'].isin(grp)]
print(df2)
"""
    v1  data2  grp
0    1      1    0
1    2      1    0
2    3      1    0
3    4      1    0
4    5      1    0
5    6      1    0
10  11      1    4
11  12      1    4
12  13      1    4
13  14      1    4
14  15      1    4
"""

# 何らかの計算
def func(gdf):
    gdf = gdf.head(5) # 先頭5行を利用
    return gdf['v1'].min(), gdf['v1'].max()

ret = df2.groupby('grp').apply(func)
print(ret)
"""
grp
0      (1, 5)
4    (11, 15)
"""
```

Answer

```python
import pandas as pd
import io

df = pd.read_csv('data.csv')
#df['time'] = pd.to_datetime(df['time']).dt.time

#
n = 5
f = df['data2'][::-1].rolling(n).min().sort_index()
dfx = df.groupby(f.eq(f.shift(fill_value=0) + 1).cumsum(), sort=False, as_index=False).head(n)
print(dfx)

```

|    | time     |   data1 |   data2 |
|---:|:---------|--------:|--------:|
|  0 | 12:53:31 |     101 |       1 |
|  1 | 12:53:32 |     102 |       1 |
|  2 | 12:53:32 |     105 |       1 |
|  3 | 12:53:33 |     102 |       1 |
|  4 | 12:53:34 |     103 |       1 |
| 14 | 12:53:43 |      97 |       1 |
| 15 | 12:53:44 |      99 |       1 |
| 16 | 12:53:45 |     100 |       1 |
| 17 | 12:53:46 |     103 |       1 |
| 18 | 12:53:47 |     102 |       1 |

time	data1	data2
12:53:31	101	1
12:53:32	102	1
12:53:32	105	1
12:53:33	102	1
12:53:34	103	1
12:53:35	99	1
12:53:36	100	1
12:53:37	110	1
12:53:38	112	0
12:53:39	98	0
12:53:40	92	0
12:53:41	100	0
12:53:42	104	0
12:53:42	105	0
12:53:43	97	1
12:53:44	99	1
12:53:45	100	1
12:53:46	103	1
12:53:47	102	1
12:53:48	101	1
12:53:49	108	1
12:53:50	91	1
12:53:51	99	0
12:53:52	93	0
12:53:52	99	0
12:53:53	100	0
12:53:54	101	1
12:53:55	102	1
12:53:56	97	1
12:53:47	100	0
12:53:48	100	0
12:53:49	101	0
・・・

前提

実現したいこと

試したこと

関連した質問