K-meansを使ってクラスタが不明な状態からクラスタ分けを実行したい。

前提・実現したいこと

K-meansを使ってクラスタが不明な状態からクラスタ分けを実行したいです。

下記のサイトを参考にK-meansでクラスタリングを行う勉強をしています。
機械学習初心者向け、Pythonを使ってK-meansでクラスタリングしてみた

しかし、クラスタ数が最初から確定した散布図をクラスタ別に色分けして表示するところまでは出来たのですが、
クラスタ数が不明な状態からのクラスタ分けを試みた場合、下記のようなエラーメッセージが出てしまいました。
NameErrorが何故出ているのかわからず対処出来ていません。

発生している問題・エラーメッセージ

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-33-be02e292992e> in <module>
     14     plt.show()
     15 
---> 16 t(1)
     17 t(2)
     18 t(3)

<ipython-input-33-be02e292992e> in t(n)
      6 def t(n):
      7     km = KMeans(n_clusters=2,init='random',n_init=1,max_iter=n,random_state=1)
----> 8     cluster = km.fit_predict(X)
      9     plt.scatter(data[cluster==0,0],data[cluster==0,1],c='red',marker='.',label='1')
     10     plt.scatter(data[cluster==1,0],data[cluster==1,1],c='black',marker='.',label='2')

NameError: name 'X' is not defined

該当のソースコード

Python
1import pandas as pd
2import numpy as np
3import matplotlib.pyplot as plt
4from sklearn.cluster import KMeans
5
6def t(n):
7    km = KMeans(n_clusters=2,init='random',n_init=1,max_iter=n,random_state=1)
8    cluster = km.fit_predict(X)
9    plt.scatter(data[cluster==0,0],data[cluster==0,1],c='red',marker='.',label='1')
10    plt.scatter(data[cluster==1,0],data[cluster==1,1],c='black',marker='.',label='2')
11    plt.scatter(km.cluster_centers_[:,0],km.cluster_centers_[:,1],marker='X',c='red',label='centroids')
12    plt.legend()
13    plt.grid()
14    plt.show()
15    
16t(1)
17t(2)
18t(3)
19t(4)
20t(5)
21t(10)

試したこと

t(1)
t(2)
t(3)
t(4)
t(5)
t(10)

上記をなくし、定義した関数を呼び出す事をやめるとエラーは起こらない事は確認しています。
という事はdefで定義した関数自体に誤りはないという事なのでしょうか…？
でもエラーが出てるのは定義している関数内なんですよね。

補足情報（FW/ツールのバージョンなど）

windows 64bit
Anaconda

解決した際のソースコード

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

X,y = make_blobs(n_samples=1000,centers=2,cluster_std=2.3, random_state=3)
plt.scatter(data[cluster==0,0],data[cluster==0,1],s=50,c='red',marker='.',label='1')
plt.scatter(data[cluster==1,0],data[cluster==1,1],s=50,c='black',marker='.',label='2')
plt.legend()
plt.grid()
plt.show()


def t(n):
    km = KMeans(n_clusters=2,init='random',n_init=1,max_iter=n,random_state=1)
    cluster = km.fit_predict(X)
    plt.scatter(data[cluster==0,0],data[cluster==0,1],c='red',marker='.',label='1')
    plt.scatter(data[cluster==1,0],data[cluster==1,1],c='black',marker='.',label='2')
    plt.scatter(km.cluster_centers_[:,0],km.cluster_centers_[:,1],marker='X',c='blue',label='centroids')
    plt.legend()
    plt.grid()
    plt.show()
    
t(1)
t(2)
t(3)
t(4)
t(5)
t(10)

問題だった点

元のソースコードではそもそもクラスタ分けしたい散布図を定義出来ていませんでした。
参考にしたサイトを再度見直しながら

cluster = km.fit_predict(X)　#各サンプルに対するクラスタ番号を求める関数

におけるサンプルが何であるかを

X,y = make_blobs(n_samples=1000,centers=2,cluster_std=2.3, random_state=3)

と追記すると、問題なくクラスタ分けしてくれました。

行動規範の内容に同意します

回答1件

ベストアンサー

NameError: name 'X' is not defined

cluster = km.fit_predict(X)

いきなり現れる「X」とは何ですか？
エラーメッセージに従って、Xを定義してください。

投稿2020/09/23 15:14

technocore

総合スコア7209

S.K12

2020/09/24 12:53

御回答有難う御座います。ご指摘の通り、Xの定義をどうすれば良いか色々調べてみたところ問題なく動かせるようになりました。一応質問のところに追記で解決したソースコードを貼っておきます。この度は本当に有難う御座いました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！