質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

91.37%

  • Python

    3802questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

python:mnistデータでknn

解決済

回答 2

投稿 2017/12/02 01:21

  • 評価
  • クリップ 1
  • VIEW 127

ponn

score 11

前提・実現したいこと

mnistデータでknnを実行したが、データサイズが大きいため処理に時間がかかる。
- 処理時間を高速にするにはどうするか。
- データサイズを指定して実行するにはどうすればよいのか。

発生している問題・エラーメッセージ

データサイズが大きいため処理に時間がかかる。
 - 処理時間を高速にするにはどうするか。
 - データサイズを指定して実行するにはどうすればよいのか。

該当のソースコード

from collections import Counter
from matplotlib import pyplot as plt
from sklearn import datasets, model_selection, metrics
from sklearn.model_selection import LeaveOneOut
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier
import sklearn.datasets as datasets
import numpy as np
import time


def main():
    # データをロード
    mnist = datasets.fetch_mldata('MNIST original', data_home='data/src/download/')

    # 特徴データとラベルデータを取り出す
    features = mnist.data
    targets = mnist.target

    # 検証する近傍数
    K = 10
    ks = range(1, K + 1)

    # 使う近傍数ごとに正解率&各経過時間を計算
    accuracy_scores = []
    start = time.time()
    for k in ks:
        predicted_labels = []
        loo = LeaveOneOut()
        for train, test in loo.split(features):
            train_data = features[train]
            test_data = targets[train]

            elapsed_time = time.time() - start

            # モデルを学習   
            model = KNeighborsClassifier(n_neighbors=k)
            model.fit(train_data, test_data)

            # 一つだけ取り除いたテストデータを識別
            predicted_label = model.predict(features[test])
            predicted_labels.append(predicted_label)

        # 正解率を計算
        score = accuracy_score(targets, predicted_labels)
        print('k={}: {}'.format(k, score))

        accuracy_scores.append(score)

        # 各経過時間を表示
        print("経過時間:{:.2f}".format(elapsed_time))

    # 使う近傍数ごとの正解率を折れ線グラフ
    X = list(ks)
    plt.plot(X, accuracy_scores)

    plt.xlabel('k')
    plt.ylabel('正解率')
    plt.show()


if __name__ == '__main__':
    main()

補足情報

Anaconda3 Python

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+1

train_test_splitは、分割対象のデータ(例えば1000件)と訓練データと試験データの割合を設定するとその割合でランダムに2つのデータセットを生成します。したがって、分割のコードは以下のようにすると、試験データを30%、訓練データ70%に分割したものになります。

train_dataX ,test_dataX,train_dataY,test_dataY = model_selection.tarin_test_split(features,targets,test_size=0.3)


訓練には、上記のtarin_dataXとtrain_dataYを使用します。この場合、データを配列のまま訓練を行うことになるのでfor文による繰り返し処理は不要で、上記の配列をそのままmodel.fit()に引数として与えればいいことになります。

model.fit(train_dataY, train_dataX)


テストには、訓練済のモデルにtest_dataXを引数として与えることで配列全体について結果を返してくれます。あとは、その結果の配列とtest_dataYを比較することで精度の評価ができます。

投稿 2017/12/03 18:12

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/12/04 23:16

    # データをロード
    mnist = datasets.fetch_mldata('MNIST original', data_home='data/src/download/')

    train_dataX ,test_dataX,train_dataY,test_dataY = model_selection.train_test_split(features,targets,test_size=0.3)

    ---------------------------------------------------------------------------
    NameError Traceback (most recent call last)
    <ipython-input-6-1fcbcb06faa7> in <module>()
    2 mnist = datasets.fetch_mldata('MNIST original', data_home='data/src/download/')
    3
    ----> 4 train_dataX ,test_dataX,train_dataY,test_dataY = model_selection.train_test_split(features,targets,test_size=0.3)
    NameError: name 'features' is not defined
    となってしまう。

    キャンセル

  • 2017/12/04 23:18

    ちなみに、model.fit(train_dataY, train_dataX) でも、使う近傍数ごとの正解率を折れ線グラフはできますか

    キャンセル

  • 2017/12/04 23:34

    > NameError: name 'features' is not defined
    『# 特徴データとラベルデータを取り出す』となっているコードでfeaturesとtargetsを定義しているので、そのあとでなければnot definedになります。

    > 使う近傍数ごとの正解率を折れ線グラフはできますか
    できます。
    近傍数を変更したモデルの定義は、model = KNeighborsClassifier(n_neighbors=k)の部分で行っています。model.fit()はこのモデルにデータを与えて学習させているだけです。OneLeaveOutからtrain_test_splitに変更した場合は、学習用データの件数が異なるだけなので処理そのものには影響しません。

    キャンセル

  • 2017/12/04 23:55

    def main():

    # 特徴データとラベルデータを取り出す
    features = mnist.data
    targets = mnist.target

    train_dataX ,test_dataX,train_dataY,test_dataY = model_selection.train_test_split(features,targets,test_size=0.3)


    # 検証する近傍数
    K = 10
    ks = range(1, K + 1)

    # 使う近傍数ごとに正解率&各経過時間を計算
    accuracy_scores = []
    start = time.time()

    model.fit(train_dataY, train_dataX)

    elapsed_time = time.time() - start

    # モデルを学習
    model = KNeighborsClassifier(n_neighbors=k)
    model.fit(train_data, test_data)

    # 一つだけ取り除いたテストデータを識別
    predicted_label = model.predict(features[test])
    predicted_labels.append(predicted_label)

    # 正解率を計算
    score = accuracy_score(targets, predicted_labels)
    print('k={}: {}'.format(k, score))

    accuracy_scores.append(score)

    # 各経過時間を表示
    print("経過時間:{:.2f}".format(elapsed_time))

    # 使う近傍数ごとの正解率を折れ線グラフ
    X = list(ks)
    plt.plot(X, accuracy_scores)

    plt.xlabel('k')
    plt.ylabel('正解率')
    plt.show()


    if __name__ == '__main__':
    main()

    ---------------------------------------------------------------------------
    UnboundLocalError Traceback (most recent call last)
    <ipython-input-4-4d2c413c4065> in <module>()
    47
    48 if __name__ == '__main__':
    ---> 49 main()

    <ipython-input-4-4d2c413c4065> in main()
    16 start = time.time()
    17
    ---> 18 model.fit(train_dataY, train_dataX)
    19
    20 elapsed_time = time.time() - start
    UnboundLocalError: local variable 'model' referenced before assignment

    これは、clf = svm.SVC() のようにmodelもあるのでしょうか

    キャンセル

  • 2017/12/05 08:49

    エラーメッセージはモデルの定義がない、というものです。コードを見るとstart=のあとにmodel.fitがあります。

    なお、このままだと近傍数を入れ替えた繰り返し処理になっていないので、K=10の結果しか得られません。元コードに存在した近傍数を入れ替えた繰り返しを追加したほうがいいでしょう

    キャンセル

  • 2017/12/06 01:54

    def main():

    # 特徴データとラベルデータを取り出す
    features = mnist.data
    targets = mnist.target

    train_dataX ,test_dataX,train_dataY,test_dataY = model_selection.train_test_split(features,targets,test_size=0.3)


    # 検証する近傍数
    K = 10
    ks = range(1, K + 1)

    # 使う近傍数ごとに正解率&各経過時間を計算
    accuracy_scores = []
    start = time.time()
    for k in ks:
    predicted_labels = []
    loo = LeaveOneOut()
    for train, test in loo.split(features):
    train_data = features[train]
    test_data = targets[train]

    elapsed_time = time.time() - start

    # モデルを学習
    model = KNeighborsClassifier(n_neighbors=k)
    model.fit(train_dataY, train_dataX)

    # 一つだけ取り除いたテストデータを識別
    predicted_label = model.predict(features[test])
    predicted_labels.append(predicted_label)

    # 正解率を計算
    score = accuracy_score(targets, predicted_labels)
    print('k={}: {}'.format(k, score))

    accuracy_scores.append(score)

    # 各経過時間を表示
    print("経過時間:{:.2f}".format(elapsed_time))

    # 使う近傍数ごとの正解率を折れ線グラフ
    X = list(ks)
    plt.plot(X, accuracy_scores)

    plt.xlabel('k')
    plt.ylabel('正解率')
    plt.show()


    if __name__ == '__main__':
    main()

    # 使う近傍数ごとに正解率&各経過時間を計算をする
    ところの書き換えがよく分かりません。おしえてください。

    キャンセル

  • 2017/12/06 07:13

    正確にいうと、オリジナルコードで実装済みだった部分を元に戻せばいいことになりますので、『よく分かりません』というのはどういう意味なのかもう少し詳しく教えてください。

    キャンセル

  • 2017/12/06 17:59

    for k in ks:
    predicted_labels = []
    loo = LeaveOneOut()
    for train, test in loo.split(features):
    train_data = features[train]
    test_data = targets[train]
    ココの【loo = LeaveOneOut()】はlooのままでいいのでしょうか?

    キャンセル

  • 2017/12/06 20:08

    train_test_splitを使ってテストデータを生成しているのでLeaveOneOutを使ってテストデータを生成するコードとそれを用いたテストの繰り返しは不要となります。

    train_test_splitは、1件単位でテストデータを生成する代わりにあらかじめ指定した割合に相当する件数のデータが配列として生成されるので、テストも配列単位で実行することができます。

    キャンセル

  • 2017/12/06 23:22

    def main():

    # 特徴データとラベルデータを取り出す
    features = mnist.data
    targets = mnist.target

    train_dataX ,test_dataX,train_dataY,test_dataY = model_selection.train_test_split(features,targets,test_size=0.3)


    # 検証する近傍数
    K = 10
    ks = range(1, K + 1)

    # 使う近傍数ごとに正解率&各経過時間を計算
    accuracy_scores = []
    start = time.time()
    for k in ks:
    predicted_labels = []
    elapsed_time = time.time() - start

    # モデルを学習
    model = KNeighborsClassifier(n_neighbors=k)
    model.fit(train_dataY, train_dataX)

    # 一つだけ取り除いたテストデータを識別
    predicted_label = model.predict(features[test])
    predicted_labels.append(predicted_label)

    # 正解率を計算
    score = accuracy_score(targets, predicted_labels)
    print('k={}: {}'.format(k, score))

    accuracy_scores.append(score)

    # 各経過時間を表示
    print("経過時間:{:.2f}".format(elapsed_time))

    # 使う近傍数ごとの正解率を折れ線グラフ
    X = list(ks)
    plt.plot(X, accuracy_scores)

    plt.xlabel('k')
    plt.ylabel('正解率')
    plt.show()


    if __name__ == '__main__':
    main()

    これで実行してもなにも起きないのはなぜですか

    キャンセル

  • 2017/12/08 00:01

    簡単にデバッグしたところ、ミスがあるようです。

    model.fit(train_dataY,train_dataX)
    --> model.fit(train_dataX,train_dataY)

    fit()メソッドは、特徴量・ラベルの順で設定する必要があります。

    predicted_label = model.predict(features[test])
    --> predicted_label = model.predict(test_dataX)

    One_Leave_Outを使用したときのものが残っているようです。今回はtest_dataXがテスト対象データセットなのでこれを使うことになります。

    predicted_labels.append(predicted_label)
    --> コメントアウト
    これも以前のコードが残っているようです。今回の場合、複数件を一括で処理しているので、その結果は配列の状態で返ってきます。

    score = accuracy_score(targets, predicted_labels)
    --> score = accuracy_score(targets, predicted_label)
    上記で示した通り、accuracy_score()にセットする予測ラベルはpredictの戻り値(predict_label)なので、修正が必要そうです。

    ただし、何も起きない理由はよくわかりません。通常ならエラーが出ると思うのですが…

    キャンセル

  • 2017/12/08 19:02 編集

    if __name__ == '__main__':
    main()

    キャンセル

  • 2017/12/08 19:30

    def main():

    # 特徴データとラベルデータを取り出す
    features = mnist.data
    targets = mnist.target

    train_dataX, test_dataX, train_dataY, test_dataY = model_selection.train_test_split(features,targets,test_size=0.3)


    # 検証する近傍数
    K = 10
    ks = range(1, K + 1)

    # 使う近傍数ごとに正解率&各経過時間を計算
    accuracy_scores = []
    start = time.time()
    for k in ks:
    predicted_labels = []
    elapsed_time = time.time() - start

    # モデルを学習
    model = KNeighborsClassifier(n_neighbors=k, metric='euclidean')
    model.fit(train_dataX,train_dataY)

    # 一つだけ取り除いたテストデータを識別
    predicted_label = model.predict(test_dataX)

    # 正解率を計算
    score = accuracy_score(targets, predicted_label)
    print('k={}: {}'.format(k, score))

    accuracy_scores.append(score)

    # 各経過時間を表示
    print("経過時間:{:.2f}".format(elapsed_time))

    # 使う近傍数ごとの正解率を折れ線グラフ
    X = list(ks)
    plt.plot(X, accuracy_scores)

    plt.xlabel('k')
    plt.ylabel('正解率')
    plt.show()


    if __name__ == '__main__':
    main()

    キャンセル

  • 2017/12/08 19:31

    実行したところ
    ---------------------------------------------------------------------------
    ValueError Traceback (most recent call last)
    <ipython-input-4-a49f56a69ab6> in <module>()
    45
    46 if __name__ == '__main__':
    ---> 47 main()

    <ipython-input-4-a49f56a69ab6> in main()
    27
    28 # 正解率を計算
    ---> 29 score = accuracy_score(targets, predicted_label)
    30 print('k={}: {}'.format(k, score))
    31

    ~\Anaconda3\lib\site-packages\sklearn\metrics\classification.py in accuracy_score(y_true, y_pred, normalize, sample_weight)
    174
    175 # Compute accuracy for each possible representation
    --> 176 y_type, y_true, y_pred = _check_targets(y_true, y_pred)
    177 if y_type.startswith('multilabel'):
    178 differing_labels = count_nonzero(y_true - y_pred, axis=1)

    ~\Anaconda3\lib\site-packages\sklearn\metrics\classification.py in _check_targets(y_true, y_pred)
    69 y_pred : array or indicator matrix
    70 """
    ---> 71 check_consistent_length(y_true, y_pred)
    72 type_true = type_of_target(y_true)
    73 type_pred = type_of_target(y_pred)

    ~\Anaconda3\lib\site-packages\sklearn\utils\validation.py in check_consistent_length(*arrays)
    202 if len(uniques) > 1:
    203 raise ValueError("Found input variables with inconsistent numbers of"
    --> 204 " samples: %r" % [int(l) for l in lengths])
    205
    206

    ValueError: Found input variables with inconsistent numbers of samples: [70000, 21000]

    キャンセル

  • 2017/12/08 19:31

    どのように改善したらいいですか。

    キャンセル

  • 2017/12/08 20:16

    見逃しがありましたね。
    エラーは、正解率を求める教師側のラベルと予測結果のラベルで数は不一致という意味です。予測は全件のうちtrain_test_splitで分割したものを用いているので、教師側にもそれに対応するものを用いる必要があります。

    キャンセル

  • 2017/12/09 00:01

    それはどのようにすればよいですか

    キャンセル

  • 2017/12/09 02:54

    どうすればいいとお考えでしょうか?
    train_test_splitのコードが書けている以上、理解されていると思います

    キャンセル

  • 2017/12/09 20:48

    def main():

    # 特徴データとラベルデータを取り出す
    features = mnist.data
    targets = mnist.target

    train_dataX, test_dataX, train_dataY, test_dataY = model_selection.train_test_split(features,targets,test_size=0.3)


    # 検証する近傍数
    K = 10
    ks = range(1, K + 1)

    # 使う近傍数ごとに正解率&各経過時間を計算
    accuracy_scores = []
    start = time.time()
    for k in ks:
    predicted_labels = []
    elapsed_time = time.time() - start

    # モデルを学習
    model = KNeighborsClassifier(n_neighbors=k, metric='euclidean')
    model.fit(train_dataX,train_dataY)

    # 一つだけ取り除いたテストデータを識別
    predicted_label = model.predict(test_dataX)

    # 正解率を計算
    score = accuracy_score(test_dataY, predicted_label)
    print('k={}: {}'.format(k, score))

    accuracy_scores.append(score)

    # 各経過時間を表示
    print("経過時間:{:.2f}".format(elapsed_time))

    # 使う近傍数ごとの正解率を折れ線グラフ
    X = list(ks)
    plt.plot(X, accuracy_scores)

    plt.xlabel('k')
    plt.ylabel('正解率')
    plt.show()


    if __name__ == '__main__':
    main()
    これでできました!けど、時間かかってしまうのはしょうがないですよね?

    キャンセル

  • 2017/12/09 21:46

    時間がかかるというのは、オリジナルコードと比較してという意味でしょうか?オリジナルコードは、データ件数×10回の繰り返し処理が必要でしたが、上記コードは10回の繰り返し処理で済むのでスピードアップにつながることが期待できました。ただし、1回で処理対象となるデータがオリジナルコードが1件に対して上記コードは全件×0.3と大幅像なのでスピードダウンの要因になりえます。
    最終的にどうなるのかはデータに依存する部分も多いので、結果を見てから考えるしかないように思います

    キャンセル

  • 2017/12/09 22:19

    ありがとうございました。

    キャンセル

+1

Leave-One-Outだと、1万件を対象にすると1万回の学習と1万回のテストを行うことになるので非常に時間がかかります。したがって、今のテストデータ・トレーニングデータの生成方法であるLeaveOneOutをtrain_test_splitに変えると、テストデータとトレーニングデータを指定した割合で分割するので、そのまま学習と試験をすることで、1回の処理でそれなりの件数の試験ができます。

投稿 2017/12/02 09:23

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/12/02 15:23

    LeaveOneOutをtrain_test_splitに変えたのですが、どのようにテストデータとトレーニングデータを指定すればよろしいでしょうか。

    キャンセル

  • 2017/12/02 16:08

    train_size = 500
    test_size = 100
    train_data, test_data, train_label, test_label = model_selection.train_test_split(mnist.data, mnist.target, test_size=test_size, train_size=train_size)
    このように書いたのですが(合っていますかね・・・)
    for k in ks:
    predicted_labels = []
    loo = LeaveOneOut()
    for train, test in loo.split(features):
    train_data = features[train]
    test_data = targets[train]
    この部分(loo)をどうすればよいか教えて下さい

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

ただいまの回答率

91.37%

関連した質問

同じタグがついた質問を見る

  • Python

    3802questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。