質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

91.23%

  • Python

    4231questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 3.x

    2785questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

python:mnistデータとDigitsデータ

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 80

ponn

score 13

現したいこと

digitsデータでk近傍法 ~マンハッタン距離~を行って使う近傍数ごとの正解率を折れ線グラフを作成したところ以下のようなジグザグな図形になりました。
mnistデータでk近傍法 ~マンハッタン距離~を行って使う近傍数ごとの正解率を折れ線グラフを作成したところ以下のような図形になりました。
似たようなデータなのになぜここまでグラフが変わるのか教えてください。

プレビュー Digits

![イメージ説明

プレビュー mnist

イメージ説明

Digitsのソースコード

def main():
    # データをロード
    dataset = datasets.load_digits()

    # 特徴データとラベルデータを取り出す
    features = dataset.data
    targets = dataset.target

    # 検証する近傍数
    K = 10
    ks = range(1, K + 1)

    # 使う近傍数ごとに正解率&各経過時間を計算
    accuracy_scores = []
    start = time.time()
    for k in ks:
        predicted_labels = []
        loo = LeaveOneOut()
        for train, test in loo.split(features):
            train_data = features[train]
            test_data = targets[train]

            elapsed_time = time.time() - start

            # モデルを学習   
            model = KNeighborsClassifier(n_neighbors=k, metric='manhattan')
            model.fit(train_data, test_data)

            # 一つだけ取り除いたテストデータを識別
            predicted_label = model.predict(features[test])
            predicted_labels.append(predicted_label)

        # 正解率を計算
        score = accuracy_score(targets, predicted_labels)
        print('k={}: {}'.format(k, score))

        accuracy_scores.append(score)

        # 各経過時間を表示
        print("経過時間:{:.2f}".format(elapsed_time))

    # 使う近傍数ごとの正解率を折れ線グラフ
    X = list(ks)
    plt.plot(X, accuracy_scores)

    plt.xlabel('k')
    plt.ylabel('正解率')
    plt.show()


if __name__ == '__main__':
    main()

mnistのソースコード

def main():

    # 特徴データとラベルデータを取り出す
    features = mnist.data
    targets = mnist.target

    #データを分割
    train_dataX, test_dataX, train_dataY, test_dataY = model_selection.train_test_split(features,targets,test_size=0.3)


    # 検証する近傍数
    K = 10
    ks = range(1, K + 1)

    # 使う近傍数ごとに正解率&各経過時間を計算
    accuracy_scores = []
    start = time.time()
    for k in ks:
        predicted_labels = []
        elapsed_time = time.time() - start

        # モデルを学習 
        model = KNeighborsClassifier(n_neighbors=k, metric='manhattan')
        model.fit(train_dataX,train_dataY)

        # 一つだけ取り除いたテストデータを識別
        predicted_label = model.predict(test_dataX)

        # 正解率を計算
        score = accuracy_score(test_dataY, predicted_label)
        print('k={}: {}'.format(k, score))

        accuracy_scores.append(score)

        # 各経過時間を表示
        print("経過時間:{:.2f}".format(elapsed_time))

    # 使う近傍数ごとの正解率を折れ線グラフ
    X = list(ks)
    plt.plot(X, accuracy_scores)

    plt.xlabel('k')
    plt.ylabel('正解率')
    plt.show()


if __name__ == '__main__':
    main()
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

まず、グラフのスケールが直感的ではありません
せめて0.9から1.0に揃えるべきでしょう。
0.から1.に揃えればともに1近いです。


他に、
digitsは2000未満個のサンプルです。
http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html

対してMNISTは60000個のサンプルがあります。

一般的にデータがたくさんある方がロバストな結果が得られます。

一度限りのモデルではサンプル数の少ないほうが分散が大きくなります。
よかったり、悪かったり…
特定の一回を取り出しても乱数次第でコロコロ変わります。

クロスバリデーションを行い統計的収束をせめて得てみないとなんとも評価できません。
http://aiweeklynews.com/archives/50219779.html
https://mathwords.net/kousakakunin


後は純粋にMNISTのほうが意地悪なサンプルが割合多く含まれている可能性もありますが、上記の可能性を排除できないにはこのような結論を下すのは時期尚早でしょうね。


追記:
気になったので試してみました。
MNISTのほうがずっと難しいですね。
digitsは8x8に対して、MNISTは28x28ですので、自由度がずっと高いですね。
例えば、MNISTから2000だけ取り出して8x8にリサイズしてやると、正答率は
digits:~98%、MNIST:~92%になります。

from sklearn.model_selection import StratifiedKFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

from sklearn import datasets
from keras.datasets import mnist

from scipy.misc import imresize

import numpy as np

try:
    from tqdm import tqdm
except (ImportError) as e:
    tqdm = lambda x:x

def main(key='digits', random_state=2017):
    if key == 'digits':
        dataset = datasets.load_digits()
        X = dataset.data
        Y = dataset.target
    elif key == 'mnist':
        (X_train, y_train), (X_test, y_test) = mnist.load_data()
        kfold = StratifiedKFold(5, shuffle=True, random_state=0)
        tr, ts = next(kfold.split(X_test, y_test))
        X = X_test[ts]
        X = np.array([imresize(x, (8, 8)) for x in X])
        X = X.reshape(-1, np.prod(X.shape[1:]))
        Y = y_test[ts]
        Y = Y.reshape(-1)
    else:
        return [], []

    ks = np.linspace(1, 10, 5).astype('i')

    accuracy_scores = []
    for k in tqdm(ks):
        pY = np.zeros(Y.shape)
        kfold = StratifiedKFold(5, shuffle=True, random_state=random_state)
        for tr, ts in kfold.split(X, Y):
            x_tr = X[tr]
            y_tr = Y[tr]

            model = KNeighborsClassifier(n_neighbors=k, metric='manhattan')
            model.fit(x_tr, y_tr)

            py = model.predict(X[ts])
            pY[ts] = py

        score = accuracy_score(Y, pY)
        accuracy_scores.append(score)
    return ks, accuracy_scores

if __name__ == '__main__':
    colors = ['red', 'blue']
    for ic, key in enumerate(['digits', 'mnist']):
        for i in np.linspace(1, 1000, 10).astype('i'):
            ks, accuracy_scores = main(key=key, random_state=2017+i)
            plt.plot(ks, accuracy_scores, marker='.', color=colors[ic])

    plt.xlabel('k')
    plt.ylabel('Accuracy')
    plt.grid()
    plt.xlim((0, np.max(ks)))
    plt.ylim((0.8, 1.0))
    plt.show()

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/12/11 18:47

    回答ありがとうございます。
    それぞれの「使う近傍数ごとの正解率を折れ線グラフ」の結果は間違えているわけではないということになりますか?

    キャンセル

  • 2017/12/11 22:54

    そうですね。
    結論としては、結果は正しいです。

    同じく数字の分類ですが、MNISTのほうが問題として難しいです。

    キャンセル

  • 2017/12/11 23:07

    そうですよね。ありがとうございました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

ただいまの回答率

91.23%

関連した質問

同じタグがついた質問を見る

  • Python

    4231questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 3.x

    2785questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。