回答編集履歴

2024/06/17 06:20

投稿

スコア21745

answer CHANGED Viewed

@@ -11,14 +11,14 @@
 2024/06/12 9:10:20,AAA,100,START
 2024/06/12 9:15:20,AAA,200,START
 2024/06/12 9:20:10,AAA,200,END
+2024/06/12 10:00:00,AAA,,END
-2024/06/12 10:00:00,AAA,100,START
+2024/06/12 11:20:10,AAA,100,START
-2024/06/12 11:20:10,AAA,100,END
 2024/06/12 12:20:10,AAA,100,END
 2024/06/12 13:10:00,AAA,100,START
 2024/06/12 14:30:10,AAA,,END
 2024/06/12 15:00:00,AAA,100,START
+2024/06/12 15:30:00,AAA,,END
-2024/06/12 15:30:00,AAA,100,START
+2024/06/12 16:20:10,AAA,100,START
-2024/06/12 16:20:10,AAA,100,END
 2024/06/12 18:20:10,AAA,100,END
 '''
@@ -27,29 +27,28 @@
 print(df)
 #
-m = df['プロセス'].isna()
-idx = df[m].index
 df2 = pd.DataFrame()
+for _, grp in df.groupby('ユーザ', as_index=False):
+    m = grp['プロセス'].isna()
+    idx = grp[m].index
-for nth, g in df[~m].groupby(m.cumsum()):
+    for nth, g in grp[~m].groupby(m.cumsum()):
-    # pivot
+        # pivot
-    key = g.groupby(['状態', 'ユーザ', 'プロセス']).cumcount()
+        key = g.groupby(['状態', 'プロセス']).cumcount()
-    dfx = g.pivot_table(index=[key, 'ユーザ', 'プロセス'], columns='状態', values='日時')\
+        dfx = g.pivot_table(index=[key, 'ユーザ', 'プロセス'], columns='状態', values='日時').reset_index()
-           .reset_index()[['ユーザ', 'プロセス', 'START', 'END']]
+        if 'END' not in dfx.columns: dfx['END'] = pd.NaT
-    # NULL値を補完(最後のブロックは除く)
+        # NULL値を補完(最後のブロックは除く)
-    if nth < len(idx):
+        if nth < len(idx):
-        cond = dfx['END'].isna() & dfx['ユーザ'].eq(df.loc[idx[nth], 'ユーザ'])
+            dfx.loc[dfx['END'].isna(), 'END'] = grp.loc[idx[nth], '日時']
-        dfx.loc[cond, 'END'] = df.loc[idx[nth], '日時']
-    df2 = pd.concat([df2, dfx])
+        df2 = pd.concat([df2, dfx])
-df2 = df2.reset_index(drop=True)
+df2 = df2[['ユーザ', 'プロセス', 'START', 'END']].reset_index(drop=True)
 print(df2)
 ```
 | ユーザ   |   プロセス | START               | END                 |
 |:---------|-----------:|:--------------------|:--------------------|
-| AAA      |        100 | 2024-06-12 09:10:20 | 2024-06-12 11:20:10 |
+| AAA      |        100 | 2024-06-12 09:10:20 | 2024-06-12 10:00:00 |
 | AAA      |        200 | 2024-06-12 09:15:20 | 2024-06-12 09:20:10 |
-| AAA      |        100 | 2024-06-12 10:00:00 | 2024-06-12 12:20:10 |
+| AAA      |        100 | 2024-06-12 11:20:10 | 2024-06-12 12:20:10 |
 | AAA      |        100 | 2024-06-12 13:10:00 | 2024-06-12 14:30:10 |
-| AAA      |        100 | 2024-06-12 15:00:00 | 2024-06-12 16:20:10 |
+| AAA      |        100 | 2024-06-12 15:00:00 | 2024-06-12 15:30:00 |
-| AAA      |        100 | 2024-06-12 15:30:00 | 2024-06-12 18:20:10 |
+| AAA      |        100 | 2024-06-12 16:20:10 | 2024-06-12 18:20:10 |

2024/06/17 04:56

投稿

melian

スコア21745

answer CHANGED Viewed

@@ -37,7 +37,8 @@
            .reset_index()[['ユーザ', 'プロセス', 'START', 'END']]
     # NULL値を補完(最後のブロックは除く)
     if nth < len(idx):
-        dfx.loc[dfx['END'].isna(), 'END'] = df.loc[idx[nth], '日時']
+        cond = dfx['END'].isna() & dfx['ユーザ'].eq(df.loc[idx[nth], 'ユーザ'])
+        dfx.loc[cond, 'END'] = df.loc[idx[nth], '日時']
     df2 = pd.concat([df2, dfx])
 df2 = df2.reset_index(drop=True)

2024/06/17 04:24

投稿

melian

スコア21745

answer CHANGED Viewed

@@ -30,7 +30,7 @@
 m = df['プロセス'].isna()
 idx = df[m].index
 df2 = pd.DataFrame()
-for nth, (_, g) in enumerate(df[~m].groupby(m.cumsum())):
+for nth, g in df[~m].groupby(m.cumsum()):
     # pivot
     key = g.groupby(['状態', 'ユーザ', 'プロセス']).cumcount()
     dfx = g.pivot_table(index=[key, 'ユーザ', 'プロセス'], columns='状態', values='日時')\

2024/06/17 04:00

投稿

melian

スコア21745

answer CHANGED Viewed

@@ -1,59 +1,54 @@
-※ 「期待するデータ」と同じ結果となる様に CSV データを一部変更しています
+> 改めて以下のデータで確認したところ、期待通りに動作しませんでした。
+当初、プロセスの値が NULL であるデータの時刻以降にある"END"状態のデータも組み合わせの対象にするのかと思っていたのですが、NULL値のデータが出現するまでの範囲内で組み合わせるとのことなので、以下の様に書き換えました。
 ```python
 import pandas as pd
 import io
 csv_data = '''
 日時,ユーザ,プロセス,状態
-2024/06/12 9:10:20,AAA,50,START
+2024/06/12 9:10:20,AAA,100,START
+2024/06/12 9:15:20,AAA,200,START
-2024/06/12 9:20:10,AAA,50,END
+2024/06/12 9:20:10,AAA,200,END
 2024/06/12 10:00:00,AAA,100,START
-2024/06/12 10:10:00,AAA,200,START
-2024/06/12 10:20:10,AAA,300,START
-2024/06/12 10:30:10,AAA,,END
+2024/06/12 11:20:10,AAA,100,END
-2024/06/12 12:00:10,AAA,100,START
-2024/06/12 12:10:20,AAA,200,START
 2024/06/12 12:20:10,AAA,100,END
+2024/06/12 13:10:00,AAA,100,START
+2024/06/12 14:30:10,AAA,,END
+2024/06/12 15:00:00,AAA,100,START
+2024/06/12 15:30:00,AAA,100,START
-2024/06/12 12:40:50,AAA,200,END
+2024/06/12 16:20:10,AAA,100,END
-2024/06/12 16:10:20,BBB,500,START
-2024/06/12 16:20:10,BBB,500,END
+2024/06/12 18:20:10,AAA,100,END
-2024/06/13 8:10:20,CCC,500,START
 '''
 df = pd.read_csv(io.StringIO(csv_data), dtype=str)
 df['日時'] = pd.to_datetime(df['日時'])
 print(df)
-# 最初に「ユーザ」と「プロセス」でグループ化、次に各グループにおいて「状態」が
+#
-# START と END のペアになっていない(START だけしかない)行のインデックスを抽出
 m = df['プロセス'].isna()
-idx = [[i.index[0]
+idx = df[m].index
+df2 = pd.DataFrame()
+for nth, (_, g) in enumerate(df[~m].groupby(m.cumsum())):
+    # pivot
-        for _, i in g.groupby((g['状態'] == 'START').cumsum())
+    key = g.groupby(['状態', 'ユーザ', 'プロセス']).cumcount()
-        if len(i) == 1]
+    dfx = g.pivot_table(index=[key, 'ユーザ', 'プロセス'], columns='状態', values='日時')\
-       for k, g in df[~m].groupby(['ユーザ', 'プロセス'])]
+           .reset_index()[['ユーザ', 'プロセス', 'START', 'END']]
+    # NULL値を補完(最後のブロックは除く)
+    if nth < len(idx):
+        dfx.loc[dfx['END'].isna(), 'END'] = df.loc[idx[nth], '日時']
-idx = sorted(i for i in sum(idx, []))
+    df2 = pd.concat([df2, dfx])
-# 「状態」が START だけしかない行に対応する END 行を元のデータフレームに追加
-n = df[m].index.to_list()
-grp = [[k for k in idx if i <= k <= j] for i, j in zip([0]+n, n)]
-df2 = pd.concat([df[~m], *[df.loc[[i]].assign(プロセス = df.loc[k, 'プロセス'])
-                           for i, j in zip(n, grp) for k in j]])
-df2 = df2.sort_values('日時')
+df2 = df2.reset_index(drop=True)
-# pivot
-df2['キー'] = df2.groupby(['状態', 'ユーザ', 'プロセス']).cumcount()
-df2 = df2.pivot_table(index=['キー', 'ユーザ', 'プロセス'], columns='状態', values='日時').reset_index()
-df2 = df2[['ユーザ', 'プロセス', 'START', 'END']]
 print(df2)
 ```
 | ユーザ   |   プロセス | START               | END                 |
 |:---------|-----------:|:--------------------|:--------------------|
+| AAA      |        100 | 2024-06-12 09:10:20 | 2024-06-12 11:20:10 |
+| AAA      |        200 | 2024-06-12 09:15:20 | 2024-06-12 09:20:10 |
-| AAA      |        100 | 2024-06-12 10:00:00 | 2024-06-12 10:30:10 |
+| AAA      |        100 | 2024-06-12 10:00:00 | 2024-06-12 12:20:10 |
-| AAA      |        200 | 2024-06-12 10:10:00 | 2024-06-12 10:30:10 |
+| AAA      |        100 | 2024-06-12 13:10:00 | 2024-06-12 14:30:10 |
-| AAA      |        300 | 2024-06-12 10:20:10 | 2024-06-12 10:30:10 |
-| AAA      |         50 | 2024-06-12 09:10:20 | 2024-06-12 09:20:10 |
-| BBB      |        500 | 2024-06-12 16:10:20 | 2024-06-12 16:20:10 |
-| CCC      |        500 | 2024-06-13 08:10:20 | NaT                 |
-| AAA      |        100 | 2024-06-12 12:00:10 | 2024-06-12 12:20:10 |
+| AAA      |        100 | 2024-06-12 15:00:00 | 2024-06-12 16:20:10 |
-| AAA      |        200 | 2024-06-12 12:10:20 | 2024-06-12 12:40:50 |
+| AAA      |        100 | 2024-06-12 15:30:00 | 2024-06-12 18:20:10 |

2024/06/12 17:04

投稿

melian

スコア21745

answer CHANGED Viewed

@@ -36,8 +36,8 @@
 # 「状態」が START だけしかない行に対応する END 行を元のデータフレームに追加
 n = df[m].index.to_list()
 grp = [[k for k in idx if i <= k <= j] for i, j in zip([0]+n, n)]
-df2 = pd.concat([df[~m], *sum([[df.loc[[j]].assign(プロセス = df.loc[k, 'プロセス'])
+df2 = pd.concat([df[~m], *[df.loc[[i]].assign(プロセス = df.loc[k, 'プロセス'])
-                                for k in grp[i]] for i, j in enumerate(n)], [])])
+                           for i, j in zip(n, grp) for k in j]])
 df2 = df2.sort_values('日時')
 # pivot