python：mnistデータで各数字の割合を知るには

###前提・実現したいこと
pythonで使うこの　mnist = datasets.fetch_mldata('MNIST original', data_home='data/src/download/')
の各数字のトレーニングデータとテストデータの割合を知るにはどのようにコードを作成すればよいですか。

###例このような感じで。
三列目は合計
![]

URL(https://qiita.com/ToshikiShimizu/items/6bfacef12dafd63b1080#%E5%90%84%E6%95%B0%E5%AD%97%E3%81%AE%E5%89%B2%E5%90%88)　参照

###補足情報(言語/FW/ツール等のバージョンなど)
Anaconda3

行動規範の内容に同意します

回答1件

ベストアンサー

numpy.bincount()を使うのが簡単ではないでしょうか

Python
1from sklearn import datasets, model_selection, metrics
2import sklearn.datasets as datasets
3import numpy as np
4
5
6mnist = datasets.fetch_mldata('MNIST original', data_home='./data/src/download')
7train_data, test_data, train_label, test_label = model_selection.train_test_split(mnist.data, mnist.target, test_size=0.3)
8
9train_count = np.bincount(train_label.astype(np.int8))
10test_count = np.bincount(test_label.astype(np.int8))
11total_count = train_count + test_count
12
13print(train_count)
14print(test_count)
15print(total_count)

投稿2017/12/12 11:54

magichan

総合スコア15898

退会済みユーザー

2017/12/12 12:06

ありがとうございました。細かいのは自分で出来ました！

退会済みユーザー

2017/12/12 12:12

ちなみに、実行する度にデータ数が変わるのはなぜですか。

magichan

2017/12/12 12:17

trainデータとtestデータに分割する train_test_split() には、データをshuffleするオプションがあり、デフォルトでTrueになっております。ですので毎回結果が変わるのかと思います。（合計は変わってないですよね）

退会済みユーザー

2017/12/12 12:19

そうだったのですね・・・ありがとうございます。ちなみに、シャッフルをオフにすることは可能なのでしょうか。可能でしたら方法を教えてください。

magichan

2017/12/12 12:40

scikit-learnのversionが0.19以降であれば train_test_split()の引数に shuffle=False を指定して shuffleをDisableにすることができます

退会済みユーザー

2017/12/12 14:48 編集

ありがとうございます。0.19ですが入れると train_data, test_data, train_label, test_label = model_selection.train_test_split(mnist.data, mnist.target, test_size=0.3, shuffle=False) train_count = np.bincount(train_label.astype(np.int8)) test_count = np.bincount(test_label.astype(np.int8)) total_count = train_count + test_count print(" 0 1 2 3 4 5 6 7 8 9" ) print("traing_data {}".format(train_count)) print("test_data {}".format(test_count)) print("traing_data + test_data {}".format(total_count)) --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-7-8406e21e208d> in <module>() 3 train_count = np.bincount(train_label.astype(np.int8)) 4 test_count = np.bincount(test_label.astype(np.int8)) ----> 5 total_count = train_count + test_count 6 7 print(" 0 1 2 3 4 5 6 7 8 9" ) ValueError: operands could not be broadcast together with shapes (9,) (10,)

magichan

2017/12/12 23:21

たぶん train_label には '9' のデータが含まれていないのでしょう。（今回はshuffle=False なので、元々の並びがそうなのかと思います）その結果、train_count は 0～8 の結果が格納された、サイズが9のデータとなっており、対して test_count には '9' のデータも含まれた、サイズ 10 のデータが得られるので、 total_count = train_count + test_count の部分で、長さが違う配列同士の足し算を行っているとしてエラーになっているようです。で、修正方法ですが、 np.bincount() の引数に minlength=10 を与えてください。そうすることで、たとえ '9'のデータを含んでいない場合も、サイズ10の結果を返すようになりますので、問題なく足し算が実行できるかと思います。

退会済みユーザー

2017/12/13 11:32 編集

ありがとうございます。出来たのはできたのですが　　　　　　　　　　　 traing_data [5923 6742 5958 6131 5842 5421 5918 6265 800 0] test_data [ 980 1135 1032 1010 982 892 958 1028 6025 6958] traing_data + test_data [6903 7877 6990 7141 6824 6313 6876 7293 6825 6958] traing_dataの９はなぜ０なのでしょうか

magichan

2017/12/14 00:51 編集

そもそも、上記の "2017/12/12 23:48" のエラーが出た原因が「traing_dataの9 が 0 」だったからです。これにより bitcount の戻り値として 0～8 の集計データとなっておりました。（9は集計が0なので結果に含まれてなかった）で、「集計がなくても最低10個(0～9)の結果を返してね。」というのが'minlength=10' ということになります。「traing_dataの9 が何故0なのか」に関しては、『元々のデータの並びが、データを２つ（Traing data と Test data）に分割したとき、片側に9のデータが偏るように"たまたま"なっていた』ということでしょう。

行動規範の内容に同意します