前提・実現したいこと
K-meansを使ってクラスタが不明な状態からクラスタ分けを実行したいです。
下記のサイトを参考にK-meansでクラスタリングを行う勉強をしています。
機械学習初心者向け、Pythonを使ってK-meansでクラスタリングしてみた
しかし、クラスタ数が最初から確定した散布図をクラスタ別に色分けして表示するところまでは出来たのですが、
クラスタ数が不明な状態からのクラスタ分けを試みた場合、下記のようなエラーメッセージが出てしまいました。
NameErrorが何故出ているのかわからず対処出来ていません。
発生している問題・エラーメッセージ
--------------------------------------------------------------------------- NameError Traceback (most recent call last) <ipython-input-33-be02e292992e> in <module> 14 plt.show() 15 ---> 16 t(1) 17 t(2) 18 t(3) <ipython-input-33-be02e292992e> in t(n) 6 def t(n): 7 km = KMeans(n_clusters=2,init='random',n_init=1,max_iter=n,random_state=1) ----> 8 cluster = km.fit_predict(X) 9 plt.scatter(data[cluster==0,0],data[cluster==0,1],c='red',marker='.',label='1') 10 plt.scatter(data[cluster==1,0],data[cluster==1,1],c='black',marker='.',label='2') NameError: name 'X' is not defined
該当のソースコード
Python
1import pandas as pd 2import numpy as np 3import matplotlib.pyplot as plt 4from sklearn.cluster import KMeans 5 6def t(n): 7 km = KMeans(n_clusters=2,init='random',n_init=1,max_iter=n,random_state=1) 8 cluster = km.fit_predict(X) 9 plt.scatter(data[cluster==0,0],data[cluster==0,1],c='red',marker='.',label='1') 10 plt.scatter(data[cluster==1,0],data[cluster==1,1],c='black',marker='.',label='2') 11 plt.scatter(km.cluster_centers_[:,0],km.cluster_centers_[:,1],marker='X',c='red',label='centroids') 12 plt.legend() 13 plt.grid() 14 plt.show() 15 16t(1) 17t(2) 18t(3) 19t(4) 20t(5) 21t(10)
試したこと
t(1) t(2) t(3) t(4) t(5) t(10)
上記をなくし、定義した関数を呼び出す事をやめるとエラーは起こらない事は確認しています。
という事はdefで定義した関数自体に誤りはないという事なのでしょうか…?
でもエラーが出てるのは定義している関数内なんですよね。
補足情報(FW/ツールのバージョンなど)
windows 64bit
Anaconda
解決した際のソースコード
import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.datasets import make_blobs X,y = make_blobs(n_samples=1000,centers=2,cluster_std=2.3, random_state=3) plt.scatter(data[cluster==0,0],data[cluster==0,1],s=50,c='red',marker='.',label='1') plt.scatter(data[cluster==1,0],data[cluster==1,1],s=50,c='black',marker='.',label='2') plt.legend() plt.grid() plt.show() def t(n): km = KMeans(n_clusters=2,init='random',n_init=1,max_iter=n,random_state=1) cluster = km.fit_predict(X) plt.scatter(data[cluster==0,0],data[cluster==0,1],c='red',marker='.',label='1') plt.scatter(data[cluster==1,0],data[cluster==1,1],c='black',marker='.',label='2') plt.scatter(km.cluster_centers_[:,0],km.cluster_centers_[:,1],marker='X',c='blue',label='centroids') plt.legend() plt.grid() plt.show() t(1) t(2) t(3) t(4) t(5) t(10)
問題だった点
元のソースコードではそもそもクラスタ分けしたい散布図を定義出来ていませんでした。
参考にしたサイトを再度見直しながら
cluster = km.fit_predict(X) #各サンプルに対するクラスタ番号を求める関数
におけるサンプルが何であるかを
X,y = make_blobs(n_samples=1000,centers=2,cluster_std=2.3, random_state=3)
と追記すると、問題なくクラスタ分けしてくれました。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/09/24 12:53