R言語：DataFrame中の連続したデータでグループ化したい

Question

R言語のDataFrameの処理についての質問になります。
以下に示しますDF1をDF2に変換したいです。
変換するためのよい方法、コードをご教示いただけないでしょうか？
※なお、実際の処理対象のDataFrameは約30万レコードになります。

【DF1】
|ID|place|date|tool|
|:--|:--:|--:|--:|
|001|A|2018/10/01|XXX|
|001|A|2018/10/02|XXX|
|001|A|2018/10/03|XXX|
|001|A|2018/10/04|YYY|
|001|A|2018/10/05|YYY|
|001|A|2018/10/06|XXX|
|001|A|2018/10/07|XXX|

↓

【DF2】
|ID|place|start_date|end_date|tool|
|:--|:--:|--:|--:|--:|
|001|A|2018/10/01|2018/10/03|XXX|
|001|A|2018/10/04|2018/10/05|YYY|
|001|A|2018/10/06|2018/10/07|XXX|

【処理内容】
ID,place,toolが同一の連続したレコードのまとまりを1つのグループとみなし、
グループ中で最も古いdateをstart_date、最も新しいdateをend_dateとします。
ex) 10/01～03のグループの場合、start_dateは10/01、end_dateは10/03となります。
なお、10/01～03のグループと10/06～07のグループはID,place,toolが同一ですが
日付が連続していないので、別々のグループとみなします。

【補足】
```ここに言語を入力
# DF1→DF2への変換
library(dplyr)
DF2 <-
  DF1 %>% 
  group_by(ID, place, tool) %>% 
  mutate(start_date = min(date)) %>% 
  mutate(end_date = max(date)) %>% 
  distinct(ID, place, start_date, end_date, tool)
```

上記のようなコードを書いた場合、以下のようにID,place,toolが同一のレコードで
まとまってしまうため、そうならないための方法を探しています。
|ID|place|start_date|end_date|tool|
|:--|:--:|--:|--:|--:|
|001|A|2018/10/01|2018/10/07|XXX|
|001|A|2018/10/04|2018/10/05|YYY|

Accepted Answer

```R library(dplyr) DF1$date <- DF1$date %>% as.Date() DF1$number <- c(1:nrow(DF1)) DF1_semi <- DF1 %>% mutate(ID_lead = lead(ID, default = "UA"), place_lead = lead(place, default = "UA"), tool_lead = lead(tool, default = "UA"), ID_lag = lag(ID, default = "UA"), place_lag = lag(place, default = "UA"), tool_lag = lag(tool, default = "UA") ) %>% mutate(flg_end = ifelse((ID == ID_lead & place == place_lead & tool == tool_lead), 0, 1), flg_start = ifelse((ID == ID_lag & place == place_lag & tool == tool_lag) , 0, 1), tmp = ifelse((flg_start == 0 & flg_end == 0), 0, 1) ) %>% filter(tmp == 1) %>% arrange(number) %>% select(number, ID, place, date, tool, flg_start, flg_end) DF2 <- DF1_semi %>% group_by(ID, place, tool) %>% mutate(date_lead = as.Date(ifelse(is.na(lead(date)), date, lead(date)), origin="1970-01-01")) %>% ungroup() %>% filter(flg_start == 1) %>% rename(start_date = date, end_date = date_lead) %>% arrange(number) %>% select(ID, place, start_date, end_date, tool) %>% as.data.frame() ```

ID	place	date	tool
001	A	2018/10/01	XXX
001	A	2018/10/02	XXX
001	A	2018/10/03	XXX
001	A	2018/10/04	YYY
001	A	2018/10/05	YYY
001	A	2018/10/06	XXX
001	A	2018/10/07	XXX

関連した質問