回答編集履歴

edit

2017/12/11 11:25

投稿

mkgrei

スコア8562

answer CHANGED Viewed

@@ -22,4 +22,82 @@
 ---
-後は純粋にMNISTのほうが意地悪なサンプルが割合多く含まれている可能性もありますが、上記の可能性を排除できないにはこのような結論を下すのは時期尚早でしょうね。
+後は純粋にMNISTのほうが意地悪なサンプルが割合多く含まれている可能性もありますが、上記の可能性を排除できないにはこのような結論を下すのは時期尚早でしょうね。
+---
+追記:
+気になったので試してみました。
+MNISTのほうがずっと難しいですね。
+digitsは8x8に対して、MNISTは28x28ですので、自由度がずっと高いですね。
+例えば、MNISTから2000だけ取り出して8x8にリサイズしてやると、正答率は
+digits:~98%、MNIST:~92%になります。
+```python
+from sklearn.model_selection import StratifiedKFold
+from sklearn.neighbors import KNeighborsClassifier
+from sklearn.metrics import accuracy_score
+from sklearn import datasets
+from keras.datasets import mnist
+from scipy.misc import imresize
+import numpy as np
+try:
+    from tqdm import tqdm
+except (ImportError) as e:
+    tqdm = lambda x:x
+def main(key='digits', random_state=2017):
+    if key == 'digits':
+        dataset = datasets.load_digits()
+        X = dataset.data
+        Y = dataset.target
+    elif key == 'mnist':
+        (X_train, y_train), (X_test, y_test) = mnist.load_data()
+        kfold = StratifiedKFold(5, shuffle=True, random_state=0)
+        tr, ts = next(kfold.split(X_test, y_test))
+        X = X_test[ts]
+        X = np.array([imresize(x, (8, 8)) for x in X])
+        X = X.reshape(-1, np.prod(X.shape[1:]))
+        Y = y_test[ts]
+        Y = Y.reshape(-1)
+    else:
+        return [], []
+    ks = np.linspace(1, 10, 5).astype('i')
+    accuracy_scores = []
+    for k in tqdm(ks):
+        pY = np.zeros(Y.shape)
+        kfold = StratifiedKFold(5, shuffle=True, random_state=random_state)
+        for tr, ts in kfold.split(X, Y):
+            x_tr = X[tr]
+            y_tr = Y[tr]
+            model = KNeighborsClassifier(n_neighbors=k, metric='manhattan')
+            model.fit(x_tr, y_tr)
+            py = model.predict(X[ts])
+            pY[ts] = py
+        score = accuracy_score(Y, pY)
+        accuracy_scores.append(score)
+    return ks, accuracy_scores
+if __name__ == '__main__':
+    colors = ['red', 'blue']
+    for ic, key in enumerate(['digits', 'mnist']):
+        for i in np.linspace(1, 1000, 10).astype('i'):
+            ks, accuracy_scores = main(key=key, random_state=2017+i)
+            plt.plot(ks, accuracy_scores, marker='.', color=colors[ic])
+    plt.xlabel('k')
+    plt.ylabel('Accuracy')
+    plt.grid()
+    plt.xlim((0, np.max(ks)))
+    plt.ylim((0.8, 1.0))
+    plt.show()
+```