回答編集履歴

修正

2021/10/25 02:08

投稿

bsdfan

スコア4794

test CHANGED Viewed

@@ -1,6 +1,10 @@
-nameでグループ化して、ST毎にカウントアップする列を作れば、その値を使ってSTに対応するEDを取り出せます。
+~~nameでグループ化して、ST毎にカウントアップする列を作れば、その値を使ってSTに対応するEDを取り出せます。
-この処理はgroupbyとcumsumでできます。
+この処理はgroupbyとcumsumでできます。~~
+nameでグループ化して、statusをカウントアップして、EDの場合はそこから1ひく処理をすれば、その値を使ってSTに対応するEDを取り出せます。
+(最初の回答だとEDが連続するケースがあった場合が違う出力になるので修正しました。そういうケースがないならどちらでもいいです。)
@@ -38,11 +42,9 @@
-df['n'] = (df['status'] == 'ST').groupby(df['name']).cumsum()
+df['n'] = df.groupby('name')['status'].cumcount() - (df['status'] == 'ED')
-# 一つのSTに対応するEDが複数あるケースでは必要に応じてdrop_duplicates
-#df = df.drop_duplicates(['name', 'status', 'n'])
+#df['n'] = (df['status'] == 'ST').groupby(df['name']).cumsum()
 ```
@@ -72,7 +74,9 @@
 ```python
-odf = odf.loc[odf['dtime1'].fillna(odf['dtime2']).sort_values().index]
+sort_idx = odf['dtime1'].fillna(odf['dtime2']).sort_values().index
+odf = odf.reindex(sort_idx).reset_index(drop=True)
 #   name status1               dtime1 status2               dtime2
@@ -84,10 +88,10 @@
 #3  eiro      ST  2020-01-02 00:00:25      ED  2020-01-02 00:00:30
-#6  airo     NaN                  NaN      ED  2020-01-03 00:00:35
+#4  airo     NaN                  NaN      ED  2020-01-03 00:00:35
-#4  kkkk      ST  2020-01-04 01:10:10      ED  2020-01-05 01:10:30
+#5  kkkk      ST  2020-01-04 01:10:10      ED  2020-01-05 01:10:30
-#5  eiro      ST  2020-01-05 02:10:20      ED  2020-01-05 02:20:30
+#6  eiro      ST  2020-01-05 02:10:20      ED  2020-01-05 02:20:30
 ```

ソートの追加

2021/10/25 02:08

投稿

bsdfan

スコア4794

test CHANGED Viewed

@@ -52,7 +52,7 @@
 STだけのデータフレーム、EDだけのデータフレームを作って、nameと上で作った列でouter mergeします。
-- STがないairoの行が下になってしまいます
+- ~~STがないairoの行が下になってしまいます~~
 - NoneではなくNaNが入っています
@@ -66,9 +66,17 @@
 odf = odf.drop(columns='n')
+```
+dtime1がない行をdtime2の値を使うようにしてソートします。
+```python
+odf = odf.loc[odf['dtime1'].fillna(odf['dtime2']).sort_values().index]
 #   name status1               dtime1 status2               dtime2
-#0  siro      ST  2020-01-01 00:00:05     NaN                  NaN
+#0  siri      ST  2020-01-01 00:00:05     NaN                  NaN
 #1  siro      ST  2020-01-01 00:00:10      ED  2020-01-01 00:00:15
@@ -76,10 +84,10 @@
 #3  eiro      ST  2020-01-02 00:00:25      ED  2020-01-02 00:00:30
+#6  airo     NaN                  NaN      ED  2020-01-03 00:00:35
 #4  kkkk      ST  2020-01-04 01:10:10      ED  2020-01-05 01:10:30
 #5  eiro      ST  2020-01-05 02:10:20      ED  2020-01-05 02:20:30
-#6  airo     NaN                  NaN      ED  2020-01-03 00:00:35
 ```

修正

2021/10/24 11:30

投稿

bsdfan

スコア4794

test CHANGED Viewed

@@ -1,6 +1,6 @@
 nameでグループ化して、ST毎にカウントアップする列を作れば、その値を使ってSTに対応するEDを取り出せます。
-前半の処理はgroupbyとcumsumでできます。
+この処理はgroupbyとcumsumでできます。
@@ -38,7 +38,7 @@
-df['n'] = df.groupby('name')['status'].apply(lambda s: (s == 'ST').cumsum())
+df['n'] = (df['status'] == 'ST').groupby(df['name']).cumsum()
 # 一つのSTに対応するEDが複数あるケースでは必要に応じてdrop_duplicates