質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

91.37%

  • Python

    3803questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

mnistデータで最適なkを探すプログラム

解決済

回答 1

投稿 2017/11/28 15:37 ・編集 2017/11/28 18:07

  • 評価
  • クリップ 0
  • VIEW 51

ponn

score 11

前提・実現したいこと

Digitsデータで最適なkを探すknnのプログラムを作ったのですが
mnistデータでも最適なkを探すknnのプログラムを教えてください。

発生している問題・エラーメッセージ

・容量が大きくて実行できない。

・NameError                                 Traceback (most recent call last)
<ipython-input-24-b95cedfc1745> in <module>()
28         print('k={0}: {1}'.format(k, ac_score))
29 
---> 30         accuracy_scores.append(score)
31 
32         # 各経過時間を表示

NameError: name 'score' is not defined

・Digitsデータではそのようなエラーはなかった

Digitsデータで最適なkを探すknnのプログラム

from matplotlib import pyplot as plt
from sklearn import datasets
from sklearn.model_selection import LeaveOneOut
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier
import time

def main():
    dataset = datasets.load_digits()

    features = dataset.data
    targets = dataset.target

    K = 10
    ks = range(1, K + 1)

    accuracy_scores = []
    start = time.time()
    for k in ks:
        predicted_labels = []
        loo = LeaveOneOut()
        for train, test in loo.split(features):
            train_data = features[train]
            target_data = targets[train]

            elapsed_time = time.time() - start

            model = KNeighborsClassifier(n_neighbors=k)
            model.fit(train_data, target_data)

            predicted_label = model.predict(features[test])
            predicted_labels.append(predicted_label)

        score = accuracy_score(targets, predicted_labels)
        print('k={0}: {1}'.format(k, score))

        accuracy_scores.append(score)

        print("経過時間:{0}".format(elapsed_time))

    X = list(ks)
    plt.plot(X, accuracy_scores)

    plt.xlabel('k')
    plt.ylabel('accuracy rate')
    plt.show()


if __name__ == '__main__':
    main()

mnistデータで最適なkを探すknnのプログラム 改善版

train_size = 500
test_size = 100
train_data, test_data, label_train, label_test = model_selection.train_test_split(mnist_data, mnist_label, test_size=test_size, train_size=train_size)

K = 10
ks = range(1, K + 1)


 # 使う近傍数ごとに正解率&各経過時間を計算
accuracy_scores = []
start = time.time()
for k in ks:
    predicted_labels = []
    loo = LeaveOneOut()

    for train, test in loo.split(mnist.data):
        train_data = mnist.data[train]
        label_train = mnist.target[train]

        elapsed_time = time.time() - start

        # モデルを学習させる    
        model = KNeighborsClassifier(n_neighbors=k)
        model.fit(train_data, label_train)

        # 一つだけ取り除いたテストデータを識別
        predicted_label = model.predict(train_data[test])
        predicted_labels.append(predicted_label)

        # 正解率を計算
        ac_score = metrics.accuracy_score(label_test, pre)
        print('k={0}: {1}'.format(k, ac_score))

        accuracy_scores.append(score)

        # 各経過時間を表示
        print("経過時間:{0}".format(elapsed_time))

    # 使う近傍数ごとの正解率を折れ線グラフ
    X = list(ks)
    plt.plot(X, ac_score)

    plt.xlabel('k')
    plt.ylabel('accuracy rate')
    plt.show()  

試したこと

mnistのデータ
mnist = datasets.fetch_mldata('MNIST original', data_home='data/src/download/')

補足情報(言語/FW/ツール等のバージョンなど)

Anaconda3 python

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • mkgrei

    2017/11/28 19:41

    http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.LeavePOut.htmlなどの公式ドキュメントにわかりやすい具体例があります。

    キャンセル

  • ponn

    2017/11/28 23:04

    Found input variables with inconsistent numbers of samples: [100, 1]  このような場合どうすればいいですか

    キャンセル

  • キャンセル

回答 1

checkベストアンサー

0

変数名に混乱があるようです。

#--------------------------------------------------------
        #data_train = mnist.data[train]
        #data_test = mnist.target[train]
        ↓
        train_data = mnist.data[train]
        target_data = mnist.target[train]
#--------------------------------------------------------

        elapsed_time = time.time() - start

        # モデルを学習させる    
        model = KNeighborsClassifier(n_neighbors=k)
        model.fit(train_data, target_data)


他の部分も違いがあるかもしれませんが、同様に修正できるはずです。

投稿 2017/11/28 16:42

編集 2017/11/28 16:43

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/11/28 17:45 編集

    ValueError: bad input shape (100, 784)

    になってしまったのですがどれを変更したらいいですか

    キャンセル

  • 2017/11/28 17:31

    train_data, test_data_, label_train, label_test = model_selection.train_test_split(mnist_data, mnist_label, test_size=test_size, train_size=train_size)
    との整合性を取ってください。
    target_data -> label_train

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

ただいまの回答率

91.37%

関連した質問

  • 解決済

    Rにて手書き数字MNISTをnnetで学習させたい

    前提・実現したいこと Rにて手書き数字データMNISTをnnetで学習させたいと考えています。 サイトを参考に実行してみましたが、エラーが出てしまいうまくいきません。 発

  • 解決済

    Pythonの並列処理に関して

    Python初心者の者です。 Pythonで並列処理を実装したく、調べてみるとjoblibという外部モジュールで簡単に書けるということでした。 ひとまずネットの記事を参考にして

  • 解決済

    sklearnのtest_splitについて

    sklearnの関数で訓練データとテストデータに分けるものがあります。 data_train, data_test, label_train, label_test = tra

  • 受付中

    Kerasを用いたCNN3によるcifar10の画像認識

    Keras初心者です。 CNNを理解するためにKerasでモデルを作り、cifar10のデータを元にモデルの認識精度を出力しようとしています。 以下のプログラムに対するエラーの

  • 解決済

    Tensorflowのfully_connected_feedの実行にエラーが続く

    tensoflowのfully_connected_feed.pyを実行しようとしているのですが、どう試行錯誤してもエラーが続きます。 tensorflowのインストールの仕方、

  • 解決済

    pandasで散布図を作成したい

    したいこと 下記のcsvファイルがあります X軸に乗客、y軸にうどんをセットして散布図を作成したいです。 駅,うどん,乗客 青井駅,9,1000 新橋駅,100,1000

  • 解決済

    機械学習の精度が上がらない

    前提・実現したいこと tensorflowを使ったテストプログラムを作成し、機械学習に必要十分なデータ量がどれだけなのか、その感覚を掴みたい、またはそのデータ量を推定するための見当

  • 受付中

    Tensorflowで異なるセッションでのrestoreして値の復元する際に、uninitializ...

    savar.save()で保存した値を異なるセッションでrestore()する際に初期化しているにも関わらず初期化されていない(uninitialize)とエラーが表示される。 4

同じタグがついた質問を見る

  • Python

    3803questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。