前提・実現したいこと

mnistで過学習を抑える研究をしています。
現在mnistのデータの数を減らしたいと考えているのですが、どうやってやればいいかわかりません。

補足情報（FW/ツールのバージョンなど）

(train_images, train_labels), (test_images, test_labels) = datasets.mnist.load_data()

train_images = train_images.reshape((60000, 28, 28, 1))
test_images = test_images.reshape((10000, 28, 28, 1))

ピクセルの値を 0~1 の間に正規化

train_images, test_images = train_images / 255.0, test_images / 255.0

meg_

2020/12/16 06:17

コピペで検証可能なコード（そのまま実行してエラーの出ないコード）を提供されると回答しやすいです。

kazushi07

2020/12/16 06:34

(_x_train_val, _y_train_val), (_x_test, _y_test) = mnist.load_data() _x_train, _x_val, _y_train, _y_val = train_test_split(_x_train_val, _y_train_val, test_size=0.2) print("x_train : ", _x_train.shape) # x_train : (48000, 28, 28) print("y_train : ", _y_train.shape) # y_train : (48000,) print("x_val : ", _x_val.shape) # x_val : (12000, 28, 28) print("y_val : ", _y_val.shape) # y_val : (12000,) print("x_test : ", _x_test.shape) # x_test : (10000, 28, 28) print("y_test : ", _y_test.shape) # y_test : (10000,) model = models.Sequential() model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1))) model.add(layers.MaxPooling2D((2, 2))) model.add(layers.Conv2D(64, (3, 3), activation='relu')) model.add(layers.MaxPooling2D((2, 2))) model.add(layers.Conv2D(64, (3, 3), activation='relu')) model.add(layers.Flatten()) model.add(layers.Dense(64, activation='relu')) model.add(layers.Dense(10, activation='softmax')) model.compile(optimizer='sgd', loss='sparse_categorical_crossentropy', metrics=['accuracy']) model.fit(_x_train, _x_val, epochs=5) ValueError: Data cardinality is ambiguous: x sizes: 48000 y sizes: 12000 Please provide data which shares the same first dimension.

meg_

2020/12/16 07:09

伝わらなかったようですが、質問者さんのコードでは「NameError: name 'mnist' is not defined」のエラーが出るのです。mnistデータは様々な方法で提供されるため明確にしていただきたく。https://kakedashi-engineer.appspot.com/2020/02/10/mnist/ 追加のコードによるとKerasっぽいでしょうか。

kazushi07

2020/12/16 07:15

すみません自分もまだかなり理解できてない部分が多くて。 mnistのデータはkerasで持って来てます。

jbpb0

2020/12/16 07:44

model.fit()の引数が間違ってます正しい書き方は、たとえば下記を参考に https://weblabo.oscasierra.net/python/keras-mnist-sample.html

jbpb0

2020/12/16 07:44

そこ直した上でですが、データの減らし方は、下記が参考になりませんでしょうか https://teratail.com/questions/117687

kazushi07

2020/12/16 09:09

ご返答ありがとうございます。参考を読んでmodel.fitの引数を変更したのですがエラーが発生してしまいます。これはどういう意味でしょうか？ model.compile(optimizer='sgd', loss='sparse_categorical_crossentropy', metrics=['accuracy']) epochs=5 batch_size = 128 history = model.fit(_x_train, _y_train, batch_size=batch_size, epochs=epochs, verbose=1, validation_data=(_x_test, _y_test) ValueError: Input 0 of layer sequential is incompatible with the layer: : expected min_ndim=4, found ndim=3. Full shape received: [128, 28, 28]

jbpb0

2020/12/16 09:29 編集

_x_... の型が、ネットワークの定義と合ってません print("x_train... の結果と見比べたら分かりますが、input_shape=(28, 28, 1) の最後の「1」の分が足りません train_test_split() のすぐ次に、 http://www.sanko-shoko.net/note.php?id=mcdp の「# reshape」のところみたいなのを入れてください変数名は、ご自分のコードのに合わせてください

kazushi07

2020/12/16 09:34

おかげさまで学習までできました。ありがとうございます。ただひとつわからないことがありまして、これはデータの数を減らせているのでしょうか？ (_x_train_val, _y_train_val), (_x_test, _y_test) = mnist.load_data() _x_train, _x_val, _y_train, _y_val = train_test_split(_x_train_val, _y_train_val, test_size=0.2) shape = (28, 28, 1) _x_train = _x_train.reshape(-1, shape[0], shape[1], shape[2]) _x_test = _x_test.reshape(-1, shape[0], shape[1], shape[2]) print("x_train : ", _x_train.shape) print("y_train : ", _y_train.shape) print("x_val : ", _x_val.shape) print("y_val : ", _y_val.shape) print("x_test : ", _x_test.shape) print("y_test : ", _y_test.shape) ｛　x_train : (48000, 28, 28, 1) y_train : (48000,) x_val : (12000, 28, 28) y_val : (12000,) x_test : (10000, 28, 28, 1) y_test : (10000,)｝ model.compile(optimizer='sgd', loss='sparse_categorical_crossentropy', metrics=['accuracy']) epochs=5 batch_size = 128 history = model.fit(_x_train, _y_train, batch_size=batch_size, epochs=epochs, verbose=1, validation_data=(_x_test, _y_test))

jbpb0

2020/12/16 09:44

データを減らすというのは、具体的にどのようにしたいのでしょうか？現状では、mnistの学習用データ60000をtrain 48000、val 12000に分けているだけです上のコメントにも書きましたけど、たとえば下記に紹介されているような方法でデータを減らすことができるようです https://teratail.com/questions/117687 私はそのコードを動かしてテストしてないので、ちゃんと動くかは分かりません

kazushi07

2020/12/16 09:53

データを減らすというのは、学習させる訓練データを60000枚より少なくさせたいです。そうすることで60000枚の時と少なくしたときの学習差を調べたいと思っています。

jbpb0

2020/12/16 10:01

とりあえず、紹介した過去の質問を読んでみてください 60000を1000と59000に分けて、1000の方だけ使うやり方が書かれてますもちろん、分け方は自由なので、20000と40000とかにも分けられます

kazushi07

2020/12/16 10:11

わかりましたありがとうございます。

行動規範の内容に同意します

回答1件

python
1model.fit()

の引数が間違ってます
正しい書き方は、たとえば下記を参考に
Keras で MNIST データの学習を試してみよう

x... の型が、ネットワークの定義と合ってません
print("x_train... の結果と見比べたら分かりますが、

python
1input_shape=(28, 28, 1)

の最後の「1」の分が足りません

python
1train_test_split()

のすぐ次に、
TensorFlow + Keras MNIST メモ
の「# reshape」のところみたいなのを入れてください
変数名は、ご自分のコードのに合わせてください

データの減らし方は、たとえば下記に紹介されているような方法で、できるようです
mnistで「各ラベル100件 × 10種類の1000件」を抽出したい（ラベル毎のバラつきが出ないよう抽出したい）
60000を1000と59000に分けて、1000の方だけ使うやり方が書かれてます
もちろん、分け方は自由なので、20000と40000とかにも分けられます

投稿2020/12/31 09:03

jbpb0

総合スコア7653