Irisデータセットに対してクラスタリング（k-means）を実行、散布図にて可視化

Pythonの資格の勉強をしており、Irisデータセットに対してクラスタリングを試みました。
まず、Irisデータセットを読み込み、3つの品種のうち2つに限定するため、先頭から100行を抽出し、次に、1列目（Sepal Length:がくの長さ）と3列目（Petal Length:花びらの長さ）の2つの変数を抽出します。

from sklearn.datasets import load_iris
# Irisデータセットを読み込む
iris = load_iris()
data = iris.data
# 1, 3列目を抽出
X = data[:100, [0, 2]]

そして、クラスタ数を3としてk-meansを実行しました。

from sklearn.cluster import KMeans
# クラスタの数を3とするKMeansのインスタンスを生成
km = KMeans(n_clusters=3, init='random', n_init=10, random_state=123)
# KMeansを実行
y_km = km.fit_predict(X)

ここで、散布図にて3つのクラスタを可視化する際に、散布図1（X[y_km == 0, 0], X[y_km == 0, 1]...）、散布図2（X[y_km == 1, 0], X[y_km == 1, 1]...）、散布図3（X[y_km == 2, 0], X[y_km == 2, 1]...）としています。このy_km==○,○で設定している2つの数値は、1番目は0,1,2の3つのクラスタ、2番目は0（Sepal Length:がくの長さ）、1（Petal Length:花びらの長さ）の理解で合っていますか。y_km==○,○で設定している2つの数値が、何を指すのかご教示いただきたいです。

import numpy as np
fig, ax = plt.subplots()
# 散布図(クラスタ1)
ax.scatter(X[y_km == 0, 0], X[y_km == 0, 1], s=50,
           edgecolor='black', marker='s', label='cluster 1')
# クラスタ中心(クラスタ1)
ax.plot(np.mean(X[y_km == 0, 0]), np.mean(X[y_km == 0, 1]),
        marker='x', markersize=10, color='red')
#  散布図(クラス２)
ax.scatter(X[y_km == 1, 0], X[y_km == 1, 1], s=50,
           edgecolor='black', marker='o', label='cluster 2')
# クラスタ中心(クラスタ2)
ax.plot(np.mean(X[y_km == 1, 0]), np.mean(X[y_km == 1, 1]),
        marker='x', markersize=10, color='red')
#  散布図(クラス3)
ax.scatter(X[y_km == 2, 0], X[y_km == 2, 1], s=50,
           edgecolor='black', marker='v', label='cluster 3')
# クラスタ中心(クラスタ3)
ax.plot(np.mean(X[y_km ==2, 0]), np.mean(X[y_km == 2, 1]),
        marker='x', markersize=10, color='red')
ax.set_xlabel('Sepal Width')
ax.set_ylabel('Petal Width')
ax.legend()
plt.show()

行動規範の内容に同意します

回答1件

（X[y_km == 2, 0], X[y_km == 2, 1]...）としています。このy_km==○,○で設定している2つの数値は、1番目は0,1,2の3つのクラスタ、2番目は0（Sepal Length:がくの長さ）、1（Petal Length:花びらの長さ）の理解で合っていますか。y_km==○,○で設定している2つの数値が、何を指すのかご教示いただきたいです

その理解であっています。

投稿2020/09/13 10:44