xmeans法の評価値であるシルエット値の実装方法

前提・実現したいこと

xmeans法を用いてirisデータセットのクラスタリングを行っています。
kmeans法をとの比較のためシルエット値を導入したいのですがどのライブラリを使えばよいのかさっぱり分からず困っています。

発生している問題・エラーメッセージ

シルエット値の導入方法が分からない

該当のソースコード

Python
1import time
2import pyclustering
3from pyclustering.cluster import xmeans
4import numpy as np
5import matplotlib
6import matplotlib.pyplot as plt
7from sklearn import datasets, preprocessing
8# datasetの読み込み
9iris_data = datasets.load_iris()
10# DataFrameに変換
11df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names)
12print(df.head())
13X=df[["sepal length (cm)","petal width (cm)"]] # yラベル , xラベル
14X.shape
15
16%%timeit
17initializer = pyclustering.cluster.xmeans.kmeans_plusplus_initializer(data=X, amount_centers=2)
18initial_centers = initializer.initialize()
19xm = xmeans.xmeans(data=X, initial_centers=initial_centers)
20xm.process()
21clusters = xm.get_clusters()
22pyclustering.utils.draw_clusters(data=X.values, clusters=clusters)
23
24#　ここでシルエット値を求めたい

試したこと

補足情報（FW/ツールのバージョンなど）

Python3 jupyter notebock

行動規範の内容に同意します

回答1件

ベストアンサー

python
1import time
2import numpy as np
3import matplotlib.pyplot as plt
4import pandas as pd
5from sklearn import datasets, preprocessing
6from sklearn.cluster import KMeans
7from sklearn.metrics import silhouette_samples
8# datasetの読み込み
9iris_data = datasets.load_iris()
10# DataFrameに変換
11df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names)
12print(df.head())
13X=df[["sepal length (cm)","petal width (cm)"]] # yラベル , xラベル
14X.shape
15# k-meansの準備
16# 初期シードはkmeans++により決定
17km = KMeans(n_clusters=3, 
18            init='k-means++', 
19            n_init=10, 
20            max_iter=300,
21            tol=1e-04,
22            random_state=0)
23# k-meansの実行、クラスター数を3に指定する
24y_km = km.fit_predict(X)
25# ラベルのリスト
26cluster_labels = np.unique(y_km)
27#クラスターの数
28n_clusters =3
29silhouette_vals = silhouette_samples(X, y_km, metric='euclidean')
30y_ax_lower, y_ax_upper = 0, 0
31yticks = []
32for i, c in enumerate(cluster_labels):
33    c_silhouette_vals = silhouette_vals[y_km == c]
34    c_silhouette_vals.sort()
35    y_ax_upper += len(c_silhouette_vals)
36    color = plt.cm.jet(float(i) / n_clusters)
37    plt.barh(range(y_ax_lower, y_ax_upper), c_silhouette_vals, height=1.0, 
38             edgecolor='none', color=color)
39
40    yticks.append((y_ax_lower + y_ax_upper) / 2.)
41    y_ax_lower += len(c_silhouette_vals)
42    
43silhouette_avg = np.mean(silhouette_vals)
44plt.axvline(silhouette_avg, color="red", linestyle="--") 
45
46plt.yticks(yticks, cluster_labels + 1)
47plt.ylabel('Cluster')
48plt.xlabel('Silhouette coefficient')
49
50plt.tight_layout()
51plt.show()