質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

91.37%

  • Python

    3835questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Pyhon : k 近傍の混同行列

解決済

回答 2

投稿 2017/12/02 01:12 ・編集 2017/12/02 01:31

  • 評価
  • クリップ 0
  • VIEW 76

ponn

score 13

前提・実現したいこと

k 近傍法の実装の正解率の結果を元に混同行列を作成したいのですがどうすればいいのか。(kの大きさごとに混合行列を作成したいため)

該当のソースコード

from sklearn import datasets
from sklearn.model_selection import LeaveOneOut
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier

def main():
    dataset = datasets.load_digits()

    features = dataset.data
    targets = dataset.target

    predicted_labels = []

    loo = LeaveOneOut()
    for train, test in loo.split(features):
        train_data = features[train]
        target_data = targets[train]

        model = KNeighborsClassifier(n_neighbors=1, metric='euclidean')
        model.fit(train_data, target_data)

        predicted_label = model.predict(features[test])
        predicted_labels.append(predicted_label)

    score = accuracy_score(targets, predicted_labels)
    print(score)


if __name__ == '__main__':
    main()

補足情報(言語/FW/ツール等のバージョンなど)

Anaconda Python3

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+2

途中の経緯がよくわからないのですが、
sklearn の confusion_matrix() を使うのは駄目なの?

from sklearn import datasets
from sklearn.model_selection import LeaveOneOut
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.neighbors import KNeighborsClassifier

def main():
    dataset = datasets.load_digits()

    features = dataset.data
    targets = dataset.target

    predicted_labels = []

    loo = LeaveOneOut()
    for train, test in loo.split(features):
        train_data = features[train]
        target_data = targets[train]

        model = KNeighborsClassifier(n_neighbors=1, metric='euclidean')
        model.fit(train_data, target_data)

        predicted_label = model.predict(features[test])
        predicted_labels.append(predicted_label)

    print(predicted_labels)
    score = accuracy_score(targets, predicted_labels)
    print(score)

    # 混合行列を表示
    cm = confusion_matrix(targets, predicted_labels)
    print(cm)


if __name__ == '__main__':
    main()

投稿 2017/12/05 17:50

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/12/05 21:15

    そういえばその手がありましたね。使い慣れているpandasが私にとってデフォルトだったので忘れていました。

    キャンセル

  • 2017/12/06 01:13

    出来ました。
    お二方お手伝いありがとうございました。

    キャンセル

0

通常、混同行列というと、縦軸に試験データのラベル・横軸に予測結果のラベルを取ったクロス集計表のことをいうので、以下のステップをコードに組み込むことがゴールになります。

1.試験データのラベルの配列を生成する。
今のコードだと、試験データのラベルはtarget[test]で取得できますが、Leave-One-Outだと1件ずつなのでappendする必要があります。

2.クロス集計表を作成する。
pandasのcrosstab()を使って混同行列を作成します。コードイメージは以下の通りです。
crosstab(index=縦軸にしたいデータ,columns=横軸にしたいデータ,margins=True)

投稿 2017/12/02 09:06

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/12/02 15:52

    試験データのラベルの配列を生成のコードを教えていただけませんか

    キャンセル

  • 2017/12/02 15:54

    横軸:予測結果のラベルは train.dataで合っていますか

    キャンセル

  • 2017/12/03 17:45

    予測結果の配列を作成するコードと基本は同じです。

    target_label = target[test]
    target_labels.append[target_label]

    for文で繰り返しをしているので上記のtestにはテスト対象データのindexが入っているのでこれを使うことでtargetの中から該当のデータをひとつ取得できます。最終的に欲しいものはこのtest対象の配列なので順次appendすることで完成します。

    キャンセル

  • 2017/12/04 22:44

    def main():
    dataset = datasets.load_digits()

    features = dataset.data
    targets = dataset.target

    predicted_labels = []

    loo = LeaveOneOut()
    for train, test in loo.split(features):
    train_data = features[train]
    target_data = targets[train]

    model = KNeighborsClassifier(n_neighbors=1, metric='euclidean')
    model.fit(train_data, target_data)

    predicted_label = model.predict(features[test])
    predicted_labels.append(predicted_label)

    target_label = targets[test]
    target_labels.append[target_label]

    score = accuracy_score(targets, predicted_labels)

    crosstab(index=, columns=, margins=True)




    if __name__ == '__main__':
    main()

    NameError Traceback (most recent call last)
    <ipython-input-10-2f60c5c2d904> in <module>()
    26
    27 if __name__ == '__main__':
    ---> 28 main()

    <ipython-input-10-2f60c5c2d904> in main()
    19
    20 target_label = targets[test]
    ---> 21 target_labels.append[target_label]
    22
    23 score = accuracy_score(targets, predicted_labels)

    NameError: name 'target_labels' is not defined
    なぜ'target_labels' はエラーに?

    キャンセル

  • 2017/12/04 23:02

    予測結果格納用の配列(predicted_labels)をforループの前に定義したのと同じことをしていないためです。元のコードが書けていたので省略してしまいました。

    キャンセル

  • 2017/12/04 23:42 編集

    def main():
    dataset = datasets.load_digits()

    features = dataset.data
    targets = dataset.target

    predicted_labels = []
    target_labels = []

    loo = LeaveOneOut()
    for train, test in loo.split(features):
    train_data = features[train]
    target_data = targets[train]

    model = KNeighborsClassifier(n_neighbors=1, metric='euclidean')
    model.fit(train_data, target_data)

    predicted_label = model.predict(features[test])
    predicted_labels.append(predicted_label)

    target_label = targets[test]
    target_labels.append[target_label]

    score = accuracy_score(targets, predicted_labels)
    print(score)

    crosstab(index=targets, columns=features, margins=True)


    if __name__ == '__main__':
    main()
    にしてみたところ

    ---------------------------------------------------------------------------
    TypeError Traceback (most recent call last)
    <ipython-input-5-653038045703> in <module>()
    29
    30 if __name__ == '__main__':
    ---> 31 main()

    <ipython-input-5-653038045703> in main()
    20
    21 target_label = targets[test]
    ---> 22 target_labels.append[target_label]
    23
    24 score = accuracy_score(targets, predicted_labels)
    TypeError: 'builtin_function_or_method' object is not subscriptable
    になってしまいました。

    キャンセル

  • 2017/12/05 00:15

    appendは[]ではなく()でした。

    キャンセル

  • 2017/12/05 00:44

    def main():
    dataset = datasets.load_digits()

    features = dataset.data
    targets = dataset.target

    predicted_labels = []
    target_labels = []

    loo = LeaveOneOut()
    for train, test in loo.split(features):
    train_data = features[train]
    target_data = targets[train]

    model = KNeighborsClassifier(n_neighbors=1, metric='euclidean')
    model.fit(train_data, target_data)

    predicted_label = model.predict(features[test])
    predicted_labels.append(predicted_label)

    target_label = targets[test]
    target_labels.append(target_label)

    score = accuracy_score(targets, predicted_labels)
    print(score)

    pd.crosstab(index=targets, columns=features, margins=True)


    if __name__ == '__main__':
    main()

    ---------------------------------------------------------------------------
    Exception Traceback (most recent call last)



    Exception: Data must be 1-dimensional

    キャンセル

  • 2017/12/05 00:46

    ・のとこは長すぎて省略
    これは、入力するデータが違うということでしょうか?

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

ただいまの回答率

91.37%

関連した質問

同じタグがついた質問を見る

  • Python

    3835questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。