回答率: 85.25%

質問するログイン新規登録

トップ 132に関する質問同時刻の同IDのデータをクラスタリングしたい

編集履歴

質問編集履歴

1

修正

2019/11/05 02:15

投稿

スコア63

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -4,19 +4,8 @@
 例えば、下記のようなデータがあったとします。
 # データ
 ```
-id time feature1 feature2 feature3
-a 2019-01-04 16:03:00 14 32 88
-a 2019-01-04 16:03:00 12 21 16
-a 2019-01-04 16:03:00 13 15 44
-a 2019-01-04 16:04:00 11 36 45
-a 2019-01-04 16:04:00 13 15 44
-a 2019-01-04 16:04:00 18 35 53
-b 2019-01-04 16:04:00 17 21 36
-b 2019-01-04 16:04:00 19 93 23
-b 2019-01-04 16:04:00 25 27 55
-：
-```
 同一IDで見て、同時刻なものは
 idがaの場合、16:03の3データと16:04の3データ、
@@ -24,7 +13,7 @@
 # 作成したいデータフレーム
 ```
-id time クラスタ数 クラスタ間距離
+id time a b
 a 2019-01-04 16:03:00 1 None
 a 2019-01-04 16:04:00 4 10.5
 b 2019-01-04 16:04:00 3 20.1
@@ -34,38 +23,10 @@
 # 試したこと
 任意のdfに対して以下のコードで、クラスタ数とデンドログラムは取得できます・
-```
-import matplotlib.pyplot as plt
-import pandas as pd
-import numpy as np
-from scipy.cluster.hierarchy import linkage, dendrogram, fcluster
-from sklearn.datasets import load_iris
-# ウォード法×ユークリッド距離
-linkage_result = linkage(df, method='ward', metric='euclidean')
-# クラスタ分けのためのしきい値の設定
-threshold = 0.8 * np.max(linkage_result[:, 2])
-# 階層型クラスタリングの可視化
-plt.figure(num=None, figsize=(5, 5), dpi=100, facecolor='w', edgecolor='k')
-dendrogram(linkage_result, color_threshold=threshold)
-plt.show()
-# クラスタリング結果の値を取得
-clustered = fcluster(linkage_result, threshold, criterion='distance')
-# クラスタ数
-print(np.max(clustered))
-```
 # 困っていること
 ・ID/時間ごとに
-・クラスタ間の距離
+・クラスタ間
-groupbyを行った上でクラスタ数・距離の2つの指標にアクセスし、
-空のデータフレームに追加していくようなイメージかと思っておりますが、
-少々込み入ってうまく表現できず困っております。
 大変恐縮ではございますが、お知恵を拝借できましたら幸いです。
 何卒よろしくお願い申し上げます。

132 185 295 317 716