回答編集履歴

画像修正

2018/09/19 07:44

投稿

tiitoi

スコア21956

test CHANGED Viewed

@@ -222,4 +222,4 @@
-![イメージ説明](4303f149506c0691128fdee1e4732de3.png)
+![イメージ説明](c6e2e4187217b2e77fa290e525220547.png)

コード追記

2018/09/19 07:44

投稿

tiitoi

スコア21956

test CHANGED Viewed

@@ -2,166 +2,224 @@
+```python
+from sklearn import datasets
+from sklearn.cluster import KMeans
+from sklearn.decomposition import PCA
+from sklearn.model_selection import train_test_split
+from sklearn.preprocessing import StandardScaler
+import matplotlib.pyplot as plt
+import numpy as np
+# MNIST データを取得する。
+mnist = datasets.fetch_mldata("MNIST original", data_home="data/mnist")
+# 標準化する。
+scaler = StandardScaler()
+scaler.fit(mnist.data)
+X = scaler.transform(mnist.data)
+# 主成分分析を行う。
+pca = PCA(n_components=2)
+pca.fit(X)
+x_pca = pca.transform(X)
+# K-mean クラスタリングを行う。
+kmean = KMeans(n_clusters=10)
+kmean.fit(x_pca)
+num_classes = 10  # クラス数
+# クラスごとの色を生成する。
+colors = np.random.rand(num_classes, 3)
+# 各データの主成分を可視化する。
+fig, axes = plt.subplots(figsize=(8, 6))
+for cls, color in zip(range(num_classes), colors):
+    indices = mnist.target == cls
+    axes.scatter(x_pca[indices, 0], x_pca[indices, 1], label=int(cls), s=0.1, c=color)
+axes.legend(markerscale=20)
+plt.show()
+```
+![イメージ説明](704cc033e55a576d0b5cd234be0222f6.png)
+```python
+x_train, x_test, y_train, y_test = train_test_split(
+    x_pca, mnist.target, test_size=0.3)
+# k-平均クラスタリングを行う。
+kmean = KMeans(n_clusters=num_classes)
+kmean.fit(x_train)
+pred = kmean.predict(x_test)
+# クラスごとの色を生成する。
+colors = np.random.rand(num_classes, 3)
+# クラスタリング結果を可視化する。
+fig, axes = plt.subplots(figsize=(8, 6))
+for cls, color in zip(range(num_classes), colors):
+    indices = kmean.labels_ == cls
+    axes.scatter(x_train[indices, 0], x_train[indices, 1], label=int(cls), s=0.1, c=color)
+axes.set_title('train result')
+axes.legend(markerscale=20)
+plt.show()
+# 予測結果を可視化する。
+fig, axes = plt.subplots(figsize=(8, 6))
+for cls, color in zip(range(num_classes), colors):
+    indices = pred == cls
+    axes.scatter(x_test[indices, 0], x_test[indices, 1], label=int(cls), s=0.1, c=color)
+axes.set_title('test result')
+axes.legend(markerscale=20)
+plt.show()
+```
+![イメージ説明](89abf9ba7913118e5b79614630c0e40f.png)
+![イメージ説明](f549fa162842904dafb76e4841a78c78.png)
+## 提案
 例えば、k-mean のクラスタリングの分類境界と元のデータの散文図とかなら意味があるかもしれません。
-```python
+```
-from sklearn import datasets
-from sklearn.cluster import KMeans
-from sklearn.decomposition import PCA
+x_min, x_max = x_pca[:, 0].min() - 1, x_pca[:, 0].max() + 1
+y_min, y_max = x_pca[:, 1].min() - 1, x_pca[:, 1].max() + 1
-from sklearn.model_selection import train_test_split
+X, Y = np.meshgrid(np.arange(x_min, x_max), np.arange(y_min, y_max))
-from sklearn.preprocessing import StandardScaler
+Z = kmean.predict(np.c_[X.ravel(), Y.ravel()])
-import matplotlib.pyplot as plt
-import numpy as np
-# MNIST データを取得する。
-mnist = datasets.fetch_mldata("MNIST original", data_home="data/mnist")
-# 標準化する。
-scaler = StandardScaler()
-scaler.fit(mnist.data)
-X = scaler.transform(mnist.data)
+Z = Z.reshape(X.shape)
-# 主成分分析を行う。
-pca = PCA(n_components=2)
-pca.fit(X)
-x_pca = pca.transform(X)
-# K-mean クラスタリングを行う。
-kmean = KMeans(n_clusters=10)
-kmean.fit(x_pca)
-num_classes = 10  # クラス数
-# クラスごとの色を生成する。
-colors = np.random.rand(num_classes, 3)
-# 各データの主成分を可視化する。
-fig, axes = plt.subplots(figsize=(8, 6))
+fig, axes = plt.subplots(figsize=(8, 6))
+# 分類境界を可視化する。
+axes.imshow(Z, interpolation='nearest',
+            cmap=plt.cm.Paired,
+            extent=(X.min(), X.max(), Y.min(), Y.max()),
+            aspect='auto', origin='lower', alpha=0.3)
+# 元のデータを可視化する。
 for cls, color in zip(range(num_classes), colors):
     indices = mnist.target == cls
-    axes.scatter(x_pca[indices, 0], x_pca[indices, 1], label=int(cls), s=0.1, c=color)
+    axes.scatter(x_pca[indices, 0], x_pca[indices, 1],
+                 label=int(cls), s=0.1, c=color)
-axes.legend(markerscale=20)
+axes.legend(markerscale=20)
-plt.show()
+plt.show()
-```
+```
-![イメージ説明](704cc033e55a576d0b5cd234be0222f6.png)
+![イメージ説明](4303f149506c0691128fdee1e4732de3.png)
-```python
-x_train, x_test, y_train, y_test = train_test_split(
-    x_pca, mnist.target, test_size=0.3)
-# k-平均クラスタリングを行う。
-kmean = KMeans(n_clusters=num_classes)
-kmean.fit(x_train)
-pred = kmean.predict(x_test)
-# クラスごとの色を生成する。
-colors = np.random.rand(num_classes, 3)
-# クラスタリング結果を可視化する。
-fig, axes = plt.subplots(figsize=(8, 6))
-for cls, color in zip(range(num_classes), colors):
-    indices = kmean.labels_ == cls
-    axes.scatter(x_train[indices, 0], x_train[indices, 1], label=int(cls), s=0.1, c=color)
-axes.set_title('train result')
-axes.legend(markerscale=20)
-plt.show()
-# 予測結果を可視化する。
-fig, axes = plt.subplots(figsize=(8, 6))
-for cls, color in zip(range(num_classes), colors):
-    indices = pred == cls
-    axes.scatter(x_test[indices, 0], x_test[indices, 1], label=int(cls), s=0.1, c=color)
-axes.set_title('test result')
-axes.legend(markerscale=20)
-plt.show()
-```
-![イメージ説明](89abf9ba7913118e5b79614630c0e40f.png)
-![イメージ説明](f549fa162842904dafb76e4841a78c78.png)