python：k 近傍法の実装の正解率の結果を元に混同行列を作成

###前提・実現したいこと
・mnistデータでk 近傍法の実装の正解率の結果を元に混同行列を作成したいのですがどうすればいいのか。

・今の状態だとK=1の時でしか混合行列がわからないのでKが１以外の時を指定して表示させるにはどうすればいいですか

###該当のソースコード

python
1from collections import Counter
2from matplotlib import pyplot as plt
3from sklearn import datasets, model_selection, metrics
4from sklearn.metrics import accuracy_score, confusion_matrix
5from sklearn.neighbors import KNeighborsClassifier
6import sklearn.datasets as datasets
7import numpy as np
8import pandas as pd
9import time
10state = np.random.RandomState(1)
11
12mnist = datasets.fetch_mldata('MNIST original', data_home='data/src/download/')
13
14def main():
15    
16    # 特徴データとラベルデータを取り出す
17    features = mnist.data
18    targets = mnist.target
19    
20    #データを分割
21    train_dataX, test_dataX, train_dataY, test_dataY = model_selection.train_test_split(features,targets,test_size=0.3)
22    
23    # 検証する近傍数
24    K = 1
25    ks = range(1, K + 1)
26
27    for k in ks:
28        predicted_labels = []
29    
30        # モデルを学習 
31        model = KNeighborsClassifier(n_neighbors=1, metric='euclidean')
32        model.fit(train_dataX,train_dataY)
33
34        # 一つだけ取り除いたテストデータを識別
35        predicted_label = model.predict(test_dataX)
36        predicted_labels.append(predicted_label)
37    
38    # 正解率を計算
39    score = accuracy_score(test_dataY, predicted_label)
40    print("正解率:{}".format(score))
41        
42    # 混合行列を表示
43    cm = confusion_matrix(test_dataY, predicted_label)
44    print(cm)
45
46if __name__ == '__main__':
47    main()

###補足情報(言語/FW/ツール等のバージョンなど)
Anaconda

行動規範の内容に同意します

回答1件

ベストアンサー

とりあえず、全ての結果が表示されるよう、修正してみました

Python
1from collections import Counter
2from matplotlib import pyplot as plt
3from sklearn import datasets, model_selection, metrics
4from sklearn.metrics import accuracy_score, confusion_matrix
5from sklearn.neighbors import KNeighborsClassifier
6import sklearn.datasets as datasets
7import numpy as np
8import pandas as pd
9import time
10state = np.random.RandomState(1)
11
12mnist = datasets.fetch_mldata('MNIST original', data_home='./data')
13
14def main():
15
16    # 特徴データとラベルデータを取り出す
17    features = mnist.data
18    targets = mnist.target
19
20    #データを分割
21    train_dataX, test_dataX, train_dataY, test_dataY = model_selection.train_test_split(features,targets,test_size=0.3)
22
23    # 検証する近傍数
24    K = 5
25    ks = range(1, K + 1)
26
27    predicted_labels = np.empty((0, test_dataY.shape[0]), np.int8)
28    for k in ks:
29        # モデルを学習
30        model = KNeighborsClassifier(n_neighbors=k, metric='euclidean')
31        model.fit(train_dataX,train_dataY)
32
33        # 一つだけ取り除いたテストデータを識別
34        predicted_label = model.predict(test_dataX)
35        predicted_labels = np.vstack([predicted_labels, predicted_label])
36
37    # 正解率を計算
38    for i, k in enumerate(ks):
39        print("K = {}".format(k))
40        score = accuracy_score(test_dataY, predicted_labels[i])
41        print("正解率:{}".format(score))
42
43        # 混合行列を表示
44        cm = confusion_matrix(test_dataY, predicted_labels[i])
45        print(cm)
46
47if __name__ == '__main__':
48    main()