【Pandas】一致したユーザとプロセス番号から状態(START, END)を横方向に時系列データを並べたい

Question

Pandasを勉強中の者です。
以下、困っているためご教授願います。

### 実現したいこと
対象となる基データ
※以下6行目、強制終了してしまうとプロセスの番号が残らず、1行だけ出力される
|日時|ユーザ|プロセス|状態|
|:--|:--:|--:|--:|
|2024/6/12 9:10:20|AAA|50|START|
|2024/6/12 9:20:10|AAA|50|END|
|2024/6/12 10:00:00|AAA|100|START|
|2024/6/12 10:10:00|AAA|200|START|
|2024/6/12 10:20:10|AAA|300|START|
|**2024/6/12 10:30:10**|AAA|NaN|END|
|2024/6/12 12:00:10|AAA|100|START|
|2024/6/12 12:10:20|AAA|200|START|
|2024/6/12 12:20:10|AAA|200|END|
|2024/6/12 12:40:50|AAA|100|END|
|2024/6/12 16:10:20|BBB|500|START|
|2024/6/12 16:20:10|BBB|500|START|
|2024/6/13 08:10:20|CCC|500|START|

期待するデータ
|ユーザ|プロセス|END|START|
|:--|:--:|--:|--:|
|AAA|100|**2024/6/12 10:30:10**|2024/6/12 10:00:00|
|AAA|200|**2024/6/12 10:30:10**|2024/6/12 10:10:00|
|AAA|300|**2024/6/12 10:30:10**|2024/6/12 10:20:10|
|AAA|50|2024/6/12 9:20:10|2024/6/12 9:10:20|
|BBB|500|2024/6/12 16:20:10|2024/6/12 16:10:20|
|CCC|500|NaN|2024/6/13 8:10:20|
|AAA|100|2024/6/12 12:20:10|2024/6/12 12:00:10|
|AAA|200|2024/6/12 12:40:50|2024/6/12 12:10:20|

### 該当のソースコード

```python
import pandas as pd
import io

csv_data = '''
日時,ユーザ,プロセス,状態
2024/06/12 9:10:20,AAA,50,START
2024/06/12 9:20:10,AAA,50,END
2024/06/12 10:00:00,AAA,100,START
2024/06/12 10:10:00,AAA,200,END
2024/06/12 10:20:10,AAA,300,START
2024/06/12 10:30:10,AAA,,END
2024/06/12 12:00:10,AAA,100,START
2024/06/12 12:10:20,AAA,200,START
2024/06/12 12:20:10,AAA,200,END
2024/06/12 12:40:50,AAA,100,END
2024/06/12 16:10:20,BBB,500,START
2024/06/12 16:20:10,BBB,500,START
2024/06/13 8:10:20,CCC,500,START
'''

df = pd.read_csv(io.StringIO(csv_data), dtype=str)
df['日時'] = pd.to_datetime(df['日時'])
print(df)

df['キー'] = df.groupby(['状態', 'ユーザ', 'プロセス']).cumcount()
df2 = df.pivot_table(index=['キー', 'ユーザ', 'プロセス'], columns='状態', values='日時').reset_index()
df2 = df2.drop(columns=['キー'])
print(df2)
```

### 試したこと
25行目のcumcount関数を使って累積和を求めても、プロセスが重複しているため、
以下の様になり、期待するデータのように出力ができません。（NaTは後で埋める予定）

|ユーザ|プロセス|END|START|
|:--|:--:|--:|--:|
|AAA|100|2024/6/12 12:40:50|2024/6/12 10:00:00|
|AAA|200|2024/6/12 12:20:10|2024/6/12 10:10:00|
|AAA|300|NaN|2024/6/12 10:20:10|
|AAA|50|2024/6/12 9:20:10|2024/6/12 9:10:20|
|BBB|500|2024/6/12 16:20:10|2024/6/12 16:10:20|
|CCC|500|2024/6/13 8:10:20|NaN|
|AAA|100|NaT|2024/6/12 12:00:10|
|AAA|200|NaT|2024/6/12 12:10:20|

Accepted Answer

> 改めて以下のデータで確認したところ、期待通りに動作しませんでした。

当初、プロセスの値が NULL であるデータの時刻以降にある"END"状態のデータも組み合わせの対象にするのかと思っていたのですが、NULL値のデータが出現するまでの範囲内で組み合わせるとのことなので、以下の様に書き換えました。

```python
import pandas as pd
import io

csv_data = '''
日時,ユーザ,プロセス,状態
2024/06/12 9:10:20,AAA,100,START
2024/06/12 9:15:20,AAA,200,START
2024/06/12 9:20:10,AAA,200,END
2024/06/12 10:00:00,AAA,,END
2024/06/12 11:20:10,AAA,100,START
2024/06/12 12:20:10,AAA,100,END
2024/06/12 13:10:00,AAA,100,START
2024/06/12 14:30:10,AAA,,END
2024/06/12 15:00:00,AAA,100,START
2024/06/12 15:30:00,AAA,,END
2024/06/12 16:20:10,AAA,100,START
2024/06/12 18:20:10,AAA,100,END
'''

df = pd.read_csv(io.StringIO(csv_data), dtype=str)
df['日時'] = pd.to_datetime(df['日時'])
print(df)

#
df2 = pd.DataFrame()
for _, grp in df.groupby('ユーザ', as_index=False):
    m = grp['プロセス'].isna()
    idx = grp[m].index
    for nth, g in grp[~m].groupby(m.cumsum()):
        # pivot
        key = g.groupby(['状態', 'プロセス']).cumcount()
        dfx = g.pivot_table(index=[key, 'ユーザ', 'プロセス'], columns='状態', values='日時').reset_index()
        if 'END' not in dfx.columns: dfx['END'] = pd.NaT
        # NULL値を補完(最後のブロックは除く)
        if nth < len(idx):
            dfx.loc[dfx['END'].isna(), 'END'] = grp.loc[idx[nth], '日時']
        df2 = pd.concat([df2, dfx])

df2 = df2[['ユーザ', 'プロセス', 'START', 'END']].reset_index(drop=True)
print(df2)
```
| ユーザ   |   プロセス | START               | END                 |
|:---------|-----------:|:--------------------|:--------------------|
| AAA      |        100 | 2024-06-12 09:10:20 | 2024-06-12 10:00:00 |
| AAA      |        200 | 2024-06-12 09:15:20 | 2024-06-12 09:20:10 |
| AAA      |        100 | 2024-06-12 11:20:10 | 2024-06-12 12:20:10 |
| AAA      |        100 | 2024-06-12 13:10:00 | 2024-06-12 14:30:10 |
| AAA      |        100 | 2024-06-12 15:00:00 | 2024-06-12 15:30:00 |
| AAA      |        100 | 2024-06-12 16:20:10 | 2024-06-12 18:20:10 |

Answer

解決済みですが，御参考として以下の内容の記述例を下記に示します。

* 「強制終了」（複数可）の前後でデータフレームを分けて各々を「縦横変換」してから再結合

* 縦横変換に必要な `'START'` 行と `'END'` 行のペアリングのため，`'END'` 行から `'ユーザ'` と `'プロセス'` が一致する最近の `'START'` 行を前方探索して `'END'` 行の `'キー'` を `'START'` 行に一致させる

* 縦横変換後の `'END'` 列の強制終了による空白は，強制終了時の時刻データを充填

```Python
import pandas as pd

pd.set_option('mode.copy_on_write', True)
pd.set_option('display.unicode.east_asian_width', True)

df = pd.read_csv('example.csv', dtype=str)
df['日時'] = pd.to_datetime(df['日時'])
print(df)
#                   日時 ユーザ プロセス   状態
# 0  2024-06-12 09:10:20    AAA       50  START
# 1  2024-06-12 09:20:10    AAA       50    END
# 2  2024-06-12 10:00:00    AAA      100  START
# 3  2024-06-12 10:10:00    AAA      200  START
# 4  2024-06-12 10:20:10    AAA      300  START
# 5  2024-06-12 10:30:10    AAA      NaN    END
# 6  2024-06-12 12:00:10    AAA      100  START
# 7  2024-06-12 12:10:20    AAA      200  START
# 8  2024-06-12 12:20:10    AAA      200    END
# 9  2024-06-12 12:40:50    AAA      100    END
# 10 2024-06-12 16:10:20    BBB      500  START
# 11 2024-06-12 16:20:10    BBB      500    END
# 12 2024-06-13 08:10:20    CCC      500  START

df1_lst, dt_lst, i = [], [], 0
for j in df.loc[df['プロセス'].isna() & (df['状態'] == 'END')].index:
    df1_lst.append(df.loc[i:(j - 1)])  # drop index=j
    dt_lst.append(df.loc[j, '日時'])
    i = j + 1
df1_lst.append(df.iloc[i:])
dt_lst.append(None)

df2_lst = []
for df1, dt in zip(df1_lst, dt_lst):
    df1['キー'] = df1.index
    for i in df1.loc[df1['状態'] == 'END'].index:
        df1.loc[i, 'キー'] = df1.loc[
            (df1.index < i)
            & (df1['ユーザ'] == df1.loc[i, 'ユーザ'])
            & (df1['プロセス'] == df1.loc[i, 'プロセス'])
            & (df1['状態'] == 'START'), 'キー'
        ].iloc[-1]
    df1 = df1.pivot(index=['キー', 'ユーザ', 'プロセス'],
                    columns='状態', values='日時')
    if dt is not None:
        df1.loc[df1['END'].isna(), 'END'] = dt
    df2_lst.append(df1)

df2 = pd.concat(df2_lst).reset_index()
df2 = df2[['ユーザ', 'プロセス', 'START', 'END']]
print(df2)
# 状態 ユーザ プロセス               START                 END
# 0       AAA       50 2024-06-12 09:10:20 2024-06-12 09:20:10
# 1       AAA      100 2024-06-12 10:00:00 2024-06-12 10:30:10
# 2       AAA      200 2024-06-12 10:10:00 2024-06-12 10:30:10
# 3       AAA      300 2024-06-12 10:20:10 2024-06-12 10:30:10
# 4       AAA      100 2024-06-12 12:00:10 2024-06-12 12:40:50
# 5       AAA      200 2024-06-12 12:10:20 2024-06-12 12:20:10
# 6       BBB      500 2024-06-12 16:10:20 2024-06-12 16:20:10
# 7       CCC      500 2024-06-13 08:10:20                 NaT
```
（追記）

「期待する結果」に合わせて2番目の内容を以下のように見直した記述例を下記に示します。

* 縦横変換に必要な `'START'` 行と `'END'` 行のペアリングのため，`'START'` 行から `'ユーザ'` と `'プロセス'` が一致しかつ `'キー'` が書き換えられていない最初の `'END'` 行を後方探索して，存在すればその `'キー'` を `'START'` 行に一致させる

```Python
import pandas as pd

pd.set_option('mode.copy_on_write', True)
pd.set_option('display.unicode.east_asian_width', True)

df = pd.read_csv('example_2.csv', dtype=str)
df['日時'] = pd.to_datetime(df['日時'])
print(df)
#                   日時 ユーザ プロセス   状態
# 0  2024-06-12 09:10:20    AAA      100  START
# 1  2024-06-12 09:15:20    AAA      200  START
# 2  2024-06-12 09:20:10    AAA      200    END
# 3  2024-06-12 10:00:00    AAA      100  START
# 4  2024-06-12 11:20:10    AAA      100    END
# 5  2024-06-12 12:20:10    AAA      100    END
# 6  2024-06-12 13:10:00    AAA      100  START
# 7  2024-06-12 14:30:10    AAA      NaN    END
# 8  2024-06-12 15:00:00    AAA      100  START
# 9  2024-06-12 15:30:00    AAA      100  START
# 10 2024-06-12 16:20:10    AAA      100    END
# 11 2024-06-12 18:20:10    AAA      100    END

df1_lst, dt_lst, i = [], [], 0
for j in df.loc[df['プロセス'].isna() & (df['状態'] == 'END')].index:
    df1_lst.append(df.loc[i:(j - 1)])  # drop index=j
    dt_lst.append(df.loc[j, '日時'])
    i = j + 1
df1_lst.append(df.iloc[i:])
dt_lst.append(None)

df2_lst = []
for df1, dt in zip(df1_lst, dt_lst):
    df1['キー'] = df1.index
    for i in df1.loc[df1['状態'] == 'START'].index:
        end = df1.loc[(df1.index > i)
                      & (df1['キー'] > i)
                      & (df1['ユーザ'] == df1.loc[i, 'ユーザ'])
                      & (df1['プロセス'] == df1.loc[i, 'プロセス'])
                      & (df1['状態'] == 'END')].index
        if len(end) > 0:
            df1.loc[end[0], 'キー'] = df1.loc[i, 'キー']
    df1 = df1.pivot(index=['キー', 'ユーザ', 'プロセス'],
                    columns='状態', values='日時')
    if dt is not None:
        df1.loc[df1['END'].isna(), 'END'] = dt
    df2_lst.append(df1)

df2 = pd.concat(df2_lst).reset_index()
df2 = df2[['ユーザ', 'プロセス', 'START', 'END']]
print(df2)
# 状態 ユーザ プロセス               START                 END
# 0       AAA      100 2024-06-12 09:10:20 2024-06-12 11:20:10
# 1       AAA      200 2024-06-12 09:15:20 2024-06-12 09:20:10
# 2       AAA      100 2024-06-12 10:00:00 2024-06-12 12:20:10
# 3       AAA      100 2024-06-12 13:10:00 2024-06-12 14:30:10
# 4       AAA      100 2024-06-12 15:00:00 2024-06-12 16:20:10
# 5       AAA      100 2024-06-12 15:30:00 2024-06-12 18:20:10
```

日時	ユーザ	プロセス	状態
2024/6/12 9:10:20	AAA	50	START
2024/6/12 9:20:10	AAA	50	END
2024/6/12 10:00:00	AAA	100	START
2024/6/12 10:10:00	AAA	200	START
2024/6/12 10:20:10	AAA	300	START
2024/6/12 10:30:10	AAA	NaN	END
2024/6/12 12:00:10	AAA	100	START
2024/6/12 12:10:20	AAA	200	START
2024/6/12 12:20:10	AAA	200	END
2024/6/12 12:40:50	AAA	100	END
2024/6/12 16:10:20	BBB	500	START
2024/6/12 16:20:10	BBB	500	START
2024/6/13 08:10:20	CCC	500	START

ユーザ	プロセス	START	END
AAA	100	2024-06-12 09:10:20	2024-06-12 10:00:00
AAA	200	2024-06-12 09:15:20	2024-06-12 09:20:10
AAA	100	2024-06-12 11:20:10	2024-06-12 12:20:10
AAA	100	2024-06-12 13:10:00	2024-06-12 14:30:10
AAA	100	2024-06-12 15:00:00	2024-06-12 15:30:00
AAA	100	2024-06-12 16:20:10	2024-06-12 18:20:10

実現したいこと

該当のソースコード

試したこと

関連した質問