回答編集履歴

補足を追加

2019/09/02 02:15

投稿

magichan

スコア15898

answer CHANGED Viewed

@@ -55,4 +55,74 @@
 にて実現出来るかと思います。
-> ``astype()`` 以降はデータを分単位表記に変えているだけです
+> ``astype()`` 以降はデータを分単位表記に変えているだけです
+---
+**【追記】**
+休憩時間を処理するサンプル
+```Python
+import pandas as pd
+import datetime
+# 休憩時間（とりあえず適当）
+BREAK_START = datetime.time(9, 27)
+BREAK_END = datetime.time(9, 32)
+# datetime.time 型同士の差を求めるUtility関数
+def time_diff(start_time, end_time):
+    return datetime.datetime.combine(datetime.date.today(), end_time) - datetime.datetime.combine(datetime.date.today(), start_time)
+# Groupby.apply() にて呼ばれる関数（各行に時間を求める）
+def calc_product_time(data):
+    # 後の処理を行いやすくするために DataFrame化しておく
+    tmp_df = pd.DataFrame({'start_time': data.shift(1).dt.time,
+                           'end_time': data.dt.time,
+                           'total_time': data.diff()},
+                          index = data.index)
+    #print(tmp_df)
+    # 各行に対して休憩時間を計算する
+    for idx, row in tmp_df.iterrows():
+        # 範囲内に休憩開始・休憩終了時間が含まれる場合
+        if ((row.start_time <= BREAK_START) &
+            (BREAK_START < row.end_time) &
+            (row.start_time <= BREAK_END) &
+            (BREAK_END < row.end_time)):
+            tmp_df.loc[idx, 'break_time'] = time_diff(BREAK_START, BREAK_END)
+        # 範囲内に休憩開始時間のみ含まれる場合
+        elif ((row.start_time <= BREAK_START) &
+              (BREAK_START < row.end_time) &
+              (BREAK_END >= row.end_time)):
+            tmp_df.loc[idx, 'break_time'] = time_diff(BREAK_START, row.end_time)
+        # 範囲内に休憩終了時間のみ含まれる場合
+        elif ((row.start_time > BREAK_START) &
+              (row.start_time <= BREAK_END) &
+              (BREAK_END < row.end_time)):
+            tmp_df.loc[idx, 'break_time'] = time_diff(row.start_time, BREAK_END)
+        # 休憩時間内に、範囲がすべて含まれる場合
+        elif ((row.start_time > BREAK_START) &
+              (BREAK_END >= row.end_time)):
+            tmp_df.loc[idx, 'break_time'] = time_diff(row.start_time, row.end_time)
+        # その他（範囲内に休憩なし）
+        else:
+            tmp_df.loc[idx, 'break_time'] = datetime.timedelta(0)
+    tmp_df['product_time'] = tmp_df['total_time'] - tmp_df['break_time']
+    #print(tmp_df)
+    return tmp_df['product_time']
+df = pd.read_csv('data.csv', parse_dates={'datetime': ['yyyymmdd', 'hhmm']})
+df['min_per_product'] = df.groupby(['id', df['datetime'].dt.date])['datetime'].apply(calc_product_time)
+print(df)
+```