質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Matplotlib

MatplotlibはPythonのおよび、NumPy用のグラフ描画ライブラリです。多くの場合、IPythonと連携して使われます。

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

1684閲覧

numpyのreshape関数について

sandyur

総合スコア25

Matplotlib

MatplotlibはPythonのおよび、NumPy用のグラフ描画ライブラリです。多くの場合、IPythonと連携して使われます。

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2017/10/19 12:24

ニューラルネットワークを用いて画像認識のアルコリズムを実装しています。
「達人データサイエンティストによる理論と実践/python機械学習プログラミング」の第12章のコードをそのまま写生しています。
MNISTデータをnumpyの配列に読み込むところでエラーが発生しました。

エラーメッセージ

ValueError Traceback (most recent call last) <ipython-input-7-93436c289cee> in <module>() 23 return images, labels 24 ---> 25 X_train, y_train = load_mnist('mnist', kind='train') 26 print('Rows: %d, columns: %d' % (X_train.shape[0], X_train.shape[1])) 27 <ipython-input-7-93436c289cee> in load_mnist(path, kind) 20 #画像ピクセル情報の配列のサイズを変更 21 #(行数:ラベルのサイズ、列数:特徴量の個数) ---> 22 images = np.fromfile(imgpath, dtype=np.uint8).reshape(len(labels), 784) 23 return images, labels 24 ValueError: cannot reshape array of size 47040000 into shape (60008,784)

ソースコード

python

1import os 2import struct 3import numpy as np 4 5def load_mnist(path, kind='train'): 6 """MNISTデータをpathからロード""" 7 #引数から指定したパスを結合(ラベルや画像のパスを作成) 8 labels_path = os.path.join(path, '%s-labels-idx1-ubyte' % kind) 9 images_path = os.path.join(path, '%s-images-idx3-ubyte' % kind) 10 11 #ファイルを読み込む 12 #引数にファイル、モードを指定(rbは読み込みのバイナリモード) 13 with open(labels_path, 'rb') as lbpath: 14 # バイナリを文字列に変換:unpack関数の引数にフォーマット、8バイト分の 15 #バイナリデータを措定して、マジックナンバー、アイテムの個数を読み込む 16 labels = np.fromfile(lbpath,dtype=np.uint8) 17 18 with open(images_path, 'rb') as imgpath: 19 magic, num, rows, cols = struct.unpack(">IIII", imgpath.read(16)) 20 #画像ピクセル情報の配列のサイズを変更 21 #(行数:ラベルのサイズ、列数:特徴量の個数) 22 images = np.fromfile(imgpath, dtype=np.uint8).reshape(len(labels), 784) 23 return images, labels 24 25X_train, y_train = load_mnist('mnist', kind='train') 26print('Rows: %d, columns: %d' % (X_train.shape[0], X_train.shape[1])) 27 28X_test, y_test = load_mnist('mnist', kind='t10k') 29print('Rows: %d, columns: %d' % (X_test.shape[0], X_test.shape[1])) 30

numpyのreshape関数の第2引数はintまたはintのタプルorリストを拾うことは知っています。
784は、MNISTデータセットの画像(28*28ピクセル)を1次元の行ベクトルで表している際の行数を示すらしいです。

解決法をご教授いただけるとうれしいです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

動きましたか?

Python: Deeper Insights into Machine Learningの日本語版っぽいですね。

質問中には、

Python

with open(labels_path, 'rb') as lbpath:
# バイナリを文字列に変換:unpack関数の引数にフォーマット、8バイト分の
#バイナリデータを措定して、マジックナンバー、アイテムの個数を読み込む
labels = np.fromfile(lbpath,dtype=np.uint8)

とありましたが、先の本では`with open(labels_path, 'rb') as lbpath:`の直後に > `magic, n = struct.unpack('>II', lbpath.read(8))` の一文があり、質問中ではこれに相当する一文が漏れているようでしたので…

投稿2017/10/19 22:32

編集2017/10/19 22:34
退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

sandyur

2017/10/19 22:37

回答ありがとうございます! はい、文章漏れに気づきましたので、訂正しました笑 こんなミスの回答に答えてくださってありがとうございます!
guest

0

ベストアンサー

Pythonもニューラルネットワークも素人ですが単純にコードの内容とエラーメッセージからの推測です。

ValueError: cannot reshape array of size 47040000 into shape (60008,784)

60008 * 784 = 47046272 > 47040000

なので、reshapeしようとする画像データのピクセル数が不足しているのが直接原因と思います。

"mnist/train-labels-idx1-ubyte" ラベルファイル
"mnist/train-images-idx3-ubyte" 画像ファイル

だと思いますが、ラベルファイルのバイト数がラベルの数になってますね。それはエラーメッセージから60008であったはずです。一方画像ファイルは16バイトのヘッダー情報+画素データのような形式になっていて画素データは1ピクセル当たり1バイトで上の計算式のとおり47046272(=60008784)バイトが期待のはずですが、実際は47040000(=60000784)バイトしかなかった=>つまり画像(28x28ピクセル)が8ラベル分だけ不足しているということなのですが・・・

ラベル読み込みのコードをよく見ると「ファイルの先頭8バイトはマジックナンバーとアイテム個数」というコメントがあります。故にそのヘッダー8バイト分の情報を本来読み込むべきであり、それをしていないためにラベル数が本来より8大きくなってしまったのが原因ではないかと思いました。

変数名は適当ですが、以下のようにしておかなければならないのでは?

python

1with open(labels_path, 'rb') as lbpath: 2 # バイナリを文字列に変換:unpack関数の引数にフォーマット、8バイト分の 3 #バイナリデータを措定して、マジックナンバー、アイテムの個数を読み込む 4 label_magic, num_items = struct.unpack(">II", imgpath.read(8)) 5 labels = np.fromfile(lbpath,dtype=np.uint8)

投稿2017/10/19 18:05

KSwordOfHaste

総合スコア18394

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

sandyur

2017/10/19 22:21

回答ありがとうございます!改善しましたら解決しました! 詳しく書いてくださりとてもわかり易かったです!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問