Kmeans法などのクラスタリングでプロットされない。

Question

### 前提・実現したいこと

要素をいくつかもつデータを教師なしの学習としてクラスタリングしたい。
(下記に示したURLを参考にしているため0列目は0と1の2クラス分類としてラベルとしている。後半では使用していません。)


### 該当のソースコード

test.csv（１１row　×　７８４列）(文字数制限のため略)
```csv
0,0,1,0,0,1,… # 文字数制限のため略
```
```python
# http://neuro-educator.com/ml9/

# 1：ライブラリのインポート--------------------------------
import numpy as np #numpyという行列などを扱うライブラリを利用
import pandas as pd #pandasというデータ分析ライブラリを利用
import matplotlib.pyplot as plt #プロット用のライブラリを利用
from sklearn import cluster, preprocessing #機械学習用のライブラリを利用
from mlxtend.plotting import plot_decision_regions #学習結果をプロットする外部ライブラリを利用
 
# 2：データセットを読み込む--------------------------------
df_wine_all=pd.read_csv('test.csv', header=None)

df_wine=df_wine_all[[0,1,2,3…,782,783]]

# df_wine.columns = [u'class', u'color', u'proline']

df_wine.columns = [u'class', u'1', u'2', u'3',…, u'782', u'783'] # 文字数制限のため略

pd.DataFrame(df_wine)  #この行を実行するとデータが見れる

# 3：データの整形-------------------------------------------------------
# X=df_wine[["color","proline"]]

X=df_wine[['1','2','3',…,'782','783']] # 文字数制限のため略

sc=preprocessing.StandardScaler()
sc.fit(X)
X_norm=sc.transform(X)

# 4：プロットしてみる------------------------------------------
%matplotlib inline
 
x=X_norm[:,0]
y=X_norm[:,1]
z=df_wine["class"]
plt.subplot(2, 1, 1)
plt.scatter(x,y, c=z)
plt.show
```
想定では、11個の点がプロットされているはずなのですが、以下になっていました。
![イメージ説明](e844325d2005235dd5daab39293165d0.png)
やはりそのあとのコードでも望みのクラスタリングはできませんでした。
```python
# 解説4：ミニバッチk-meansやk-meansを実施---------------------------------
#km=cluster.MiniBatchKMeans(n_clusters=3, batch_size=100)
km=cluster.KMeans(n_clusters=2)
z_km=km.fit(X_norm)
# 5: 結果をプロット-----------------------------------------------
plt.subplot(2, 1, 2)
plt.scatter(x,y, c=z_km.labels_)
plt.scatter(z_km.cluster_centers_[:,0],z_km.cluster_centers_[:,1],s=250, marker='*',c='red')
plt.show
```
![イメージ説明](4bbf66552665940b9f66beccc7922c8a.png)
### 参考にしたコード

[参考にしたURL](http://neuro-educator.com/ml9/)
上記のサイトを利用していました。
たくさんの要素を持つデータをクラスタリングするには何が不足しているのでしょうか。
よろしくお願いいたします。

### 補足情報（FW/ツールのバージョンなど）
win10
google colab
python 3.7

### 20200406 追記
teratailにipynbをアップするにはどのようにしたらよいのでしょうか。もし可能ならその方がすぐにコード実行して頂けると思いました。

### 20200411 X_norm print表示追加
![イメージ説明](01dbc349bd2c7d6717643c438ee7475a.png)


### 20200411 22:35
ipynb souce code
test.csv
の共有アドレスです。
https://drive.google.com/file/d/1MCnKuZHdJTkzBalz-DL6l8zftFeW5gNF/view?usp=sharing
https://drive.google.com/file/d/1lNMzApau8gFsYXQsTGUfxFRTtnsGSIxg/view?usp=sharing
閲覧とダウンロードが可能です。

### 20200412 xlim利用結果追加
![イメージ説明](3eaedb3a00ddaf8a33abc3ac37244b16.png)

### 20200419 表幅調整
(2,1,1)へ変更後
![イメージ説明](4567ee69ce36c9fd70c400009bed755a.png)


### 20200423 訂正
当初こちらで質問するためにデータ量をアップしやすい軽いものをアップしてしまい大変申し訳ありませんでした。
実際のデータが以下になります。
https://drive.google.com/file/d/1KSUjqC85fqnaxjTiRJbviPD8OlEW7Z_x/view?usp=sharing

Accepted Answer

`X_norm`をprint等で直接見た結果と、散布図を見比べるのがまず先決では？

データがおかしいかスケールが狭すぎるかのどちらかではという感じはするのですが。

Answer

根本的に、何を表示しようとしているのかが不明でした。

参考元のURLでは、学習データとして色とプロリン（という成分）の２変数から、ワインの品種を推定しようとしているわけですよね。
で、
```
x=X_norm[:,0]
y=X_norm[:,1]
```
のインデックスにある`0`, `1`はそれぞれ色成分とプロリン成分を指していますね。

dendenmushiさんが改造されたコードだと、学習データとして783個のデータを使おうとしている。
この時に`X_norm[:,0]`,`X_norm[:,1]`はその783個のうちの最初の2個を指しています。
これを二次元平面にプロットしても意味のある絵にはならないのではないでしょうか。

`X['1']`,`X['2']`はそれぞれ全部0,全部1というデータです。
StandardScalerは平均が0になるように変換を行うため、結果どちらも全部0となって今のプロット結果が得られています。

前提・実現したいこと

該当のソースコード

参考にしたコード

補足情報（FW/ツールのバージョンなど）

20200406 追記

20200411 X_norm print表示追加

20200411 22:35

20200412 xlim利用結果追加

20200419 表幅調整

20200423 訂正

関連した質問