回答編集履歴

追記

2023/01/14 12:10

投稿

スコア4963

answer CHANGED Viewed

@@ -1,3 +1,43 @@
+質問が変更されて、「誤差が最大となるように」に合わせてみました。
+(INとOUTのペアリングのところ以外は修正前と同じです)
+下記は、直前がINでないINと、直後がOUTでないOUTをマッチさせるようにしたものです。
+これで、だいたい最大っぽい感じになると思いますが、もし合わないケースがあれば、ご自身で条件を変えてみてください。
+```python
+import pandas as pd
+import numpy as np
+# df = ...
+# 日付ソート
+df = df.sort_values(['datetime'])
+# INとOUTのペアリング
+def pair_number(x):
+    valid_in = (x == 'IN') & (x.shift() != 'IN')
+    valid_out = (x == 'OUT') & (x.shift(-1) != 'OUT')
+    num = np.arange(len(x))
+    num_in = np.maximum.accumulate(np.where(valid_in, num, -1))
+    return np.where(valid_out, num_in, num)
+df['key'] = df.groupby(['user', 'service'])['in_out'].transform(pair_number)
+# ピボット
+df2 = pd.pivot(
+    df,
+    index=['user', 'service', 'key'],
+    columns='in_out',
+    values=['No', 'datetime'])
+# カラム名の整理
+df2.columns = [c2 + '_' + c1 for (c1, c2) in df2.columns]
+df2 = df2.reset_index().drop(columns='key')
+print(df2)
+```
+### 修正前の回答
 datetime でソートして、user, service で groupby した上で、
 in_out に連番をつけて、'OUT'のところは -1 すると、
 IN → OUT と連続するところだけが同じ数字になります。