回答編集履歴

書式の改善

2024/06/17 14:54

投稿

little_street

スコア563

answer CHANGED Viewed

@@ -72,7 +72,7 @@
 「期待する結果」に合わせて2番目の内容を以下のように見直した記述例を下記に示します。
-* 縦横変換に必要な `'START'` 行と `'END'` 行のペアリングのため，`'START'` 行から `ユーザ` と `プロセス` が一致しかつ `キー` が書き換えられていない最初の `'END'` 行を後方探索して，存在すればその `キー` を `START` 行に一致させる
+* 縦横変換に必要な `'START'` 行と `'END'` 行のペアリングのため，`'START'` 行から `'ユーザ'` と `'プロセス'` が一致しかつ `'キー'` が書き換えられていない最初の `'END'` 行を後方探索して，存在すればその `'キー'` を `'START'` 行に一致させる
 ```Python
 import pandas as pd

期待する結果に合わせた見直し

2024/06/17 14:51

投稿

little_street

スコア563

answer CHANGED Viewed

@@ -68,3 +68,68 @@
 # 6       BBB      500 2024-06-12 16:10:20 2024-06-12 16:20:10
 # 7       CCC      500 2024-06-13 08:10:20                 NaT
 ```
+（追記）
+「期待する結果」に合わせて2番目の内容を以下のように見直した記述例を下記に示します。
+* 縦横変換に必要な `'START'` 行と `'END'` 行のペアリングのため，`'START'` 行から `ユーザ` と `プロセス` が一致しかつ `キー` が書き換えられていない最初の `'END'` 行を後方探索して，存在すればその `キー` を `START` 行に一致させる
+```Python
+import pandas as pd
+pd.set_option('mode.copy_on_write', True)
+pd.set_option('display.unicode.east_asian_width', True)
+df = pd.read_csv('example_2.csv', dtype=str)
+df['日時'] = pd.to_datetime(df['日時'])
+print(df)
+#                   日時 ユーザ プロセス   状態
+# 0  2024-06-12 09:10:20    AAA      100  START
+# 1  2024-06-12 09:15:20    AAA      200  START
+# 2  2024-06-12 09:20:10    AAA      200    END
+# 3  2024-06-12 10:00:00    AAA      100  START
+# 4  2024-06-12 11:20:10    AAA      100    END
+# 5  2024-06-12 12:20:10    AAA      100    END
+# 6  2024-06-12 13:10:00    AAA      100  START
+# 7  2024-06-12 14:30:10    AAA      NaN    END
+# 8  2024-06-12 15:00:00    AAA      100  START
+# 9  2024-06-12 15:30:00    AAA      100  START
+# 10 2024-06-12 16:20:10    AAA      100    END
+# 11 2024-06-12 18:20:10    AAA      100    END
+df1_lst, dt_lst, i = [], [], 0
+for j in df.loc[df['プロセス'].isna() & (df['状態'] == 'END')].index:
+    df1_lst.append(df.loc[i:(j - 1)])  # drop index=j
+    dt_lst.append(df.loc[j, '日時'])
+    i = j + 1
+df1_lst.append(df.iloc[i:])
+dt_lst.append(None)
+df2_lst = []
+for df1, dt in zip(df1_lst, dt_lst):
+    df1['キー'] = df1.index
+    for i in df1.loc[df1['状態'] == 'START'].index:
+        end = df1.loc[(df1.index > i)
+                      & (df1['キー'] > i)
+                      & (df1['ユーザ'] == df1.loc[i, 'ユーザ'])
+                      & (df1['プロセス'] == df1.loc[i, 'プロセス'])
+                      & (df1['状態'] == 'END')].index
+        if len(end) > 0:
+            df1.loc[end[0], 'キー'] = df1.loc[i, 'キー']
+    df1 = df1.pivot(index=['キー', 'ユーザ', 'プロセス'],
+                    columns='状態', values='日時')
+    if dt is not None:
+        df1.loc[df1['END'].isna(), 'END'] = dt
+    df2_lst.append(df1)
+df2 = pd.concat(df2_lst).reset_index()
+df2 = df2[['ユーザ', 'プロセス', 'START', 'END']]
+print(df2)
+# 状態 ユーザ プロセス               START                 END
+# 0       AAA      100 2024-06-12 09:10:20 2024-06-12 11:20:10
+# 1       AAA      200 2024-06-12 09:15:20 2024-06-12 09:20:10
+# 2       AAA      100 2024-06-12 10:00:00 2024-06-12 12:20:10
+# 3       AAA      100 2024-06-12 13:10:00 2024-06-12 14:30:10
+# 4       AAA      100 2024-06-12 15:00:00 2024-06-12 16:20:10
+# 5       AAA      100 2024-06-12 15:30:00 2024-06-12 18:20:10
+```

説明をより詳しく

2024/06/13 15:12

投稿

little_street

スコア563

answer CHANGED Viewed

@@ -1,6 +1,6 @@
 解決済みですが，御参考として以下の内容の記述例を下記に示します。
-* 「強制終了」の前後でデータフレームを分けて各々を「縦横変換」してから再結合
+* 「強制終了」（複数可）の前後でデータフレームを分けて各々を「縦横変換」してから再結合
 * 縦横変換に必要な `'START'` 行と `'END'` 行のペアリングのため，`'END'` 行から `'ユーザ'` と `'プロセス'` が一致する最近の `'START'` 行を前方探索して `'END'` 行の `'キー'` を `'START'` 行に一致させる