質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.55%

python:mnistデータでknn

解決済

回答 2

投稿

  • 評価
  • クリップ 2
  • VIEW 1,486
退会済みユーザー

退会済みユーザー

前提・実現したいこと

mnistデータでknnを実行したが、データサイズが大きいため処理に時間がかかる。
- 処理時間を高速にするにはどうするか。
- データサイズを指定して実行するにはどうすればよいのか。

発生している問題・エラーメッセージ

データサイズが大きいため処理に時間がかかる。
 - 処理時間を高速にするにはどうするか。
 - データサイズを指定して実行するにはどうすればよいのか。

該当のソースコード

from collections import Counter
from matplotlib import pyplot as plt
from sklearn import datasets, model_selection, metrics
from sklearn.model_selection import LeaveOneOut
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier
import sklearn.datasets as datasets
import numpy as np
import time


def main():
    # データをロード
    mnist = datasets.fetch_mldata('MNIST original', data_home='data/src/download/')

    # 特徴データとラベルデータを取り出す
    features = mnist.data
    targets = mnist.target

    # 検証する近傍数
    K = 10
    ks = range(1, K + 1)

    # 使う近傍数ごとに正解率&各経過時間を計算
    accuracy_scores = []
    start = time.time()
    for k in ks:
        predicted_labels = []
        loo = LeaveOneOut()
        for train, test in loo.split(features):
            train_data = features[train]
            test_data = targets[train]

            elapsed_time = time.time() - start

            # モデルを学習   
            model = KNeighborsClassifier(n_neighbors=k)
            model.fit(train_data, test_data)

            # 一つだけ取り除いたテストデータを識別
            predicted_label = model.predict(features[test])
            predicted_labels.append(predicted_label)

        # 正解率を計算
        score = accuracy_score(targets, predicted_labels)
        print('k={}: {}'.format(k, score))

        accuracy_scores.append(score)

        # 各経過時間を表示
        print("経過時間:{:.2f}".format(elapsed_time))

    # 使う近傍数ごとの正解率を折れ線グラフ
    X = list(ks)
    plt.plot(X, accuracy_scores)

    plt.xlabel('k')
    plt.ylabel('正解率')
    plt.show()


if __name__ == '__main__':
    main()

補足情報

Anaconda3 Python

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+2

train_test_splitは、分割対象のデータ(例えば1000件)と訓練データと試験データの割合を設定するとその割合でランダムに2つのデータセットを生成します。したがって、分割のコードは以下のようにすると、試験データを30%、訓練データ70%に分割したものになります。

train_dataX ,test_dataX,train_dataY,test_dataY = model_selection.tarin_test_split(features,targets,test_size=0.3)


訓練には、上記のtarin_dataXとtrain_dataYを使用します。この場合、データを配列のまま訓練を行うことになるのでfor文による繰り返し処理は不要で、上記の配列をそのままmodel.fit()に引数として与えればいいことになります。

model.fit(train_dataY, train_dataX)


テストには、訓練済のモデルにtest_dataXを引数として与えることで配列全体について結果を返してくれます。あとは、その結果の配列とtest_dataYを比較することで精度の評価ができます。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/12/09 20:48

    def main():

    # 特徴データとラベルデータを取り出す
    features = mnist.data
    targets = mnist.target

    train_dataX, test_dataX, train_dataY, test_dataY = model_selection.train_test_split(features,targets,test_size=0.3)


    # 検証する近傍数
    K = 10
    ks = range(1, K + 1)

    # 使う近傍数ごとに正解率&各経過時間を計算
    accuracy_scores = []
    start = time.time()
    for k in ks:
    predicted_labels = []
    elapsed_time = time.time() - start

    # モデルを学習
    model = KNeighborsClassifier(n_neighbors=k, metric='euclidean')
    model.fit(train_dataX,train_dataY)

    # 一つだけ取り除いたテストデータを識別
    predicted_label = model.predict(test_dataX)

    # 正解率を計算
    score = accuracy_score(test_dataY, predicted_label)
    print('k={}: {}'.format(k, score))

    accuracy_scores.append(score)

    # 各経過時間を表示
    print("経過時間:{:.2f}".format(elapsed_time))

    # 使う近傍数ごとの正解率を折れ線グラフ
    X = list(ks)
    plt.plot(X, accuracy_scores)

    plt.xlabel('k')
    plt.ylabel('正解率')
    plt.show()


    if __name__ == '__main__':
    main()
    これでできました!けど、時間かかってしまうのはしょうがないですよね?

    キャンセル

  • 2017/12/09 21:46

    時間がかかるというのは、オリジナルコードと比較してという意味でしょうか?オリジナルコードは、データ件数×10回の繰り返し処理が必要でしたが、上記コードは10回の繰り返し処理で済むのでスピードアップにつながることが期待できました。ただし、1回で処理対象となるデータがオリジナルコードが1件に対して上記コードは全件×0.3と大幅像なのでスピードダウンの要因になりえます。
    最終的にどうなるのかはデータに依存する部分も多いので、結果を見てから考えるしかないように思います

    キャンセル

  • 2017/12/09 22:19

    ありがとうございました。

    キャンセル

+1

Leave-One-Outだと、1万件を対象にすると1万回の学習と1万回のテストを行うことになるので非常に時間がかかります。したがって、今のテストデータ・トレーニングデータの生成方法であるLeaveOneOutをtrain_test_splitに変えると、テストデータとトレーニングデータを指定した割合で分割するので、そのまま学習と試験をすることで、1回の処理でそれなりの件数の試験ができます。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/12/02 15:23

    LeaveOneOutをtrain_test_splitに変えたのですが、どのようにテストデータとトレーニングデータを指定すればよろしいでしょうか。

    キャンセル

  • 2017/12/02 16:08

    train_size = 500
    test_size = 100
    train_data, test_data, train_label, test_label = model_selection.train_test_split(mnist.data, mnist.target, test_size=test_size, train_size=train_size)
    このように書いたのですが(合っていますかね・・・)
    for k in ks:
    predicted_labels = []
    loo = LeaveOneOut()
    for train, test in loo.split(features):
    train_data = features[train]
    test_data = targets[train]
    この部分(loo)をどうすればよいか教えて下さい

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.55%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る