同時刻の同IDのデータをクラスタリングしたい

Question

# 考えていること
IDデータ、時間データ、複数特徴量データを用いて、同時刻の同一IDで絞った上でクラスタリングをかけ、
クラスタ数とクラスタ間距離とデンドログラムを取得したいです。
例えば、下記のようなデータがあったとします。

# データ

```

同一IDで見て、同時刻なものは
idがaの場合、16:03の3データと16:04の3データ、
idがbの場合、16:04の3データで、作成したいデータフレームは以下になります。

# 作成したいデータフレーム
```
id time a b
a 2019-01-04 16:03:00 1 None
a 2019-01-04 16:04:00 4 10.5
b 2019-01-04 16:04:00 3 20.1
:
```

# 試したこと
任意のdfに対して以下のコードで、クラスタ数とデンドログラムは取得できます・

# 困っていること
・ID/時間ごとに
・クラスタ間


大変恐縮ではございますが、お知恵を拝借できましたら幸いです。
何卒よろしくお願い申し上げます。

Accepted Answer

``DataFrame.groupby().apply()`` にて関数を呼び出し、その関数内でグループ毎のクラスタ数・クラスタ間距離を求めて ``pandas.Series()`` データとして返すことで実現できます。

クラスター間距離を求めるコードがありませんでしたので、下のコードでは しきい値として使った値をクラスター間距離として扱っております。

```Python
import pandas as pd
import io
from scipy.cluster.hierarchy import linkage, dendrogram, fcluster
import numpy as np

data = """
id,time,feature1,feature2,feature3
a,2019-01-04 16:03:00,14,32,88
a,2019-01-04 16:03:00,12,21,16
a,2019-01-04 16:03:00,13,15,44
a,2019-01-04 16:04:00,11,36,45
a,2019-01-04 16:04:00,13,15,44
a,2019-01-04 16:04:00,18,35,53
b,2019-01-04 16:04:00,17,21,36
b,2019-01-04 16:04:00,19,93,23
b,2019-01-04 16:04:00,25,27,55
"""

df = pd.read_csv(io.StringIO(data),parse_dates=['time'])

def f(d):
    linkage_result = linkage(d, method='ward', metric='euclidean')
    # クラスタ分けのためのしきい値の設定
    threshold = 0.8 * np.max(linkage_result[:, 2])
    # クラスタリング結果の値を取得
    clustered = fcluster(linkage_result, threshold, criterion='distance')
    # 結果をSeriesデータとして返す（クラスタ間距離はしきい値で良いの？？）
    return pd.Series({'クラスタ数': np.max(clustered), 'クラスタ間距離': threshold})


# groupby.apply() にて関数 f() を呼び出す
r = df.groupby(['id','time'])[['feature1','feature2','feature3']].apply(f)
print(r)
#                        クラスタ数    クラスタ間距離
#id time
#a  2019-01-04 16:03:00    2.0  55.134260
#   2019-01-04 16:04:00    2.0  19.541409
#b  2019-01-04 16:04:00    2.0  67.068125
```

考えていること

データ

関連した質問