datetimeオブジェクトの差をとる処理

Question

以下のようなpd.DataFrameがあるとします。

![pd.DataFrameの例](1c488c594d5f2ca8f0feb84f018ea2cd.png)

行いたい処理は各id毎にdateの差をとっていくことです。すでにid毎にdateは
sortされているものとします。

以下のコードで処理しようとしましたが、実際のデータは**3000万行程**（**uniqueなidが30万**ほど）あり、時間がかかりすぎだったので、途中で止めました。効率よくこの処理を行うにはどうすればよいでしょうか？

```python
#dateの差をとっていく、ただしidが変わるときは0とする（違うcard_id間で差を取らないように気をつける）
for i in tqdm(range(len(df))):
    if i == 0:
        pass
    elif df['id'][i] == df['id'][i-1]:
        df['delta'][i] = df['date'][i] - df['date'][i-1]
    else:
        pass
```

Accepted Answer

can110さんのから改良。気持ちマシになると思いますが、そもそも遅い処理なのでどうだろうな面はあります。

```python
import pandas as pd

df = pd.DataFrame({'id':['a','a','a','b','b','b'],'date':['2018/01/23','2018/01/24','2018/01/26','2018/01/23','2018/01/26','2018/01/30']})
df.loc[:,'date'] = pd.to_datetime(df['date'])

grp = df.groupby('id')
for grp_name, grp_idx in grp.groups.items():
    df.loc[grp_idx,'delta'] = df.loc[grp_idx,'date'].diff().fillna(0)

print(df)
"""
        date id  delta
0 2018-01-23  a 0 days
1 2018-01-24  a 1 days
2 2018-01-26  a 2 days
3 2018-01-23  b 0 days
4 2018-01-26  b 3 days
5 2018-01-30  b 4 days
"""

```

###### 毎回fillnaするオーバーヘッドを削減（）したもの
```python
import pandas as pd

df = pd.DataFrame({'id':['a','a','a','b','b','b'],'date':['2018/01/23','2018/01/24','2018/01/26','2018/01/23','2018/01/26','2018/01/30']})
df.loc[:,'date'] = pd.to_datetime(df['date'])

grp = df.groupby('id')
for grp_name, grp_idx in grp.groups.items():
    df.loc[grp_idx,'delta'] = df.loc[grp_idx,'date'].diff()

df.fillna(0, inplace=True)
print(df)
"""
        date id  delta
0 2018-01-23  a 0 days
1 2018-01-24  a 1 days
2 2018-01-26  a 2 days
3 2018-01-23  b 0 days
4 2018-01-26  b 3 days
5 2018-01-30  b 4 days
"""

```

### 別のアイデア
これでも良い気がします。速くはなるはずなんだけど、idごとに計測するのは無理かも。あと、上のループでどれくらい時間を食うかが懸念。

```python
import pandas as pd

df = pd.DataFrame({'id':['a','a','a','b','b','b'],'date':['2018/01/23','2018/01/24','2018/01/26','2018/01/23','2018/01/26','2018/01/30']})
df.loc[:,'date'] = pd.to_datetime(df['date'])

before_id = None
zero_points = []
for i, id_ in df["id"].iteritems():
    if id_ != before_id:
        zero_points.append(i)
        before_id = id_

df.loc[:,"delta"] = df.loc[:,"date"].diff()
df.loc[zero_points,"delta"] = pd.Timedelta(0)
print(df)

"""
        date id  delta
0 2018-01-23  a 0 days
1 2018-01-24  a 1 days
2 2018-01-26  a 2 days
3 2018-01-23  b 0 days
4 2018-01-26  b 3 days
5 2018-01-30  b 4 days
"""
```

Answer

以下のような感じでできそうです。
`id`でグループ化して`id`毎に`diff`を適用します。
先頭行は`NaN`になるので`fillna(0)`で０で埋めています。
```Python
import pandas as pd

df = pd.DataFrame({'id':['a','a','a','b','b','b'],'date':['2018/01/23','2018/01/24','2018/01/26','2018/01/23','2018/01/26','2018/01/30']})
df.loc[:,'date'] = pd.to_datetime(df['date'])

grp = df.groupby('id')
for id in grp.groups:
    df.loc[df['id'] == id,'delta'] = df.loc[df['id'] == id,'date'].diff().fillna(0)

print(df)
"""
        date id  delta
0 2018-01-23  a 0 days
1 2018-01-24  a 1 days
2 2018-01-26  a 2 days
3 2018-01-23  b 0 days
4 2018-01-26  b 3 days
5 2018-01-30  b 4 days
"""
```

#### 別解：先頭から舐める版
ユニークidが多く、各id毎の行数が少ない場合は、以下のように先頭から舐めて計算する方が速いかもしれません。
```Python
import pandas as pd

df = pd.DataFrame({'id':['a','a','a','b','b','b'],'date':['2018/01/23','2018/01/24','2018/01/26','2018/01/23','2018/01/26','2018/01/30']},
                    columns = ['id','date'])
df.loc[:,'date'] = pd.to_datetime(df['date'])
df['delta'] = 0

prev_id,prev_date = df.loc[0,'id'], df.loc[0,'date']
for idx,row in df.iterrows():
    cur_id = row['id']
    cur_date = row['date']
    if prev_id != cur_id:
        pass
    else:
        df.loc[idx,'delta'] = cur_date - prev_date
    prev_id = cur_id
    prev_date = cur_date

print(df)
"""
  id       date            delta
0  a 2018-01-23  0 days 00:00:00
1  a 2018-01-24  1 days 00:00:00
2  a 2018-01-26  2 days 00:00:00
3  b 2018-01-23                0
4  b 2018-01-26  3 days 00:00:00
5  b 2018-01-30  4 days 00:00:00
"""
```

Answer

根本的な解決になっていないかもしれないですが内包表現でしたらforより早くなります。

毎回fillnaするオーバーヘッドを削減（）したもの

別のアイデア

別解：先頭から舐める版

関連した質問