🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

2564閲覧

mnistのデータの数を減らしたい

kazushi07

総合スコア0

Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/12/16 06:15

前提・実現したいこと

mnistで過学習を抑える研究をしています。
現在mnistのデータの数を減らしたいと考えているのですが、どうやってやればいいかわかりません。

補足情報(FW/ツールのバージョンなど)

(train_images, train_labels), (test_images, test_labels) = datasets.mnist.load_data()

train_images = train_images.reshape((60000, 28, 28, 1))
test_images = test_images.reshape((10000, 28, 28, 1))

ピクセルの値を 0~1 の間に正規化

train_images, test_images = train_images / 255.0, test_images / 255.0

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2020/12/16 06:17

コピペで検証可能なコード(そのまま実行してエラーの出ないコード)を提供されると回答しやすいです。
kazushi07

2020/12/16 06:34

(_x_train_val, _y_train_val), (_x_test, _y_test) = mnist.load_data() _x_train, _x_val, _y_train, _y_val = train_test_split(_x_train_val, _y_train_val, test_size=0.2) print("x_train : ", _x_train.shape) # x_train : (48000, 28, 28) print("y_train : ", _y_train.shape) # y_train : (48000,) print("x_val : ", _x_val.shape) # x_val : (12000, 28, 28) print("y_val : ", _y_val.shape) # y_val : (12000,) print("x_test : ", _x_test.shape) # x_test : (10000, 28, 28) print("y_test : ", _y_test.shape) # y_test : (10000,) model = models.Sequential() model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1))) model.add(layers.MaxPooling2D((2, 2))) model.add(layers.Conv2D(64, (3, 3), activation='relu')) model.add(layers.MaxPooling2D((2, 2))) model.add(layers.Conv2D(64, (3, 3), activation='relu')) model.add(layers.Flatten()) model.add(layers.Dense(64, activation='relu')) model.add(layers.Dense(10, activation='softmax')) model.compile(optimizer='sgd', loss='sparse_categorical_crossentropy', metrics=['accuracy']) model.fit(_x_train, _x_val, epochs=5) ValueError: Data cardinality is ambiguous: x sizes: 48000 y sizes: 12000 Please provide data which shares the same first dimension.
meg_

2020/12/16 07:09

伝わらなかったようですが、質問者さんのコードでは「NameError: name 'mnist' is not defined」のエラーが出るのです。mnistデータは様々な方法で提供されるため明確にしていただきたく。https://kakedashi-engineer.appspot.com/2020/02/10/mnist/ 追加のコードによるとKerasっぽいでしょうか。
kazushi07

2020/12/16 07:15

すみません自分もまだかなり理解できてない部分が多くて。 mnistのデータはkerasで持って来てます。
kazushi07

2020/12/16 09:09

ご返答ありがとうございます。参考を読んでmodel.fitの引数を変更したのですがエラーが発生してしまいます。これはどういう意味でしょうか? model.compile(optimizer='sgd', loss='sparse_categorical_crossentropy', metrics=['accuracy']) epochs=5 batch_size = 128 history = model.fit(_x_train, _y_train, batch_size=batch_size, epochs=epochs, verbose=1, validation_data=(_x_test, _y_test) ValueError: Input 0 of layer sequential is incompatible with the layer: : expected min_ndim=4, found ndim=3. Full shape received: [128, 28, 28]
jbpb0

2020/12/16 09:29 編集

_x_... の型が、ネットワークの定義と合ってません print("x_train... の結果と見比べたら分かりますが、input_shape=(28, 28, 1) の最後の「1」の分が足りません train_test_split() のすぐ次に、 http://www.sanko-shoko.net/note.php?id=mcdp の「# reshape」のところみたいなのを入れてください 変数名は、ご自分のコードのに合わせてください
kazushi07

2020/12/16 09:34

おかげさまで学習までできました。ありがとうございます。 ただひとつわからないことがありまして、これはデータの数を減らせているのでしょうか? (_x_train_val, _y_train_val), (_x_test, _y_test) = mnist.load_data() _x_train, _x_val, _y_train, _y_val = train_test_split(_x_train_val, _y_train_val, test_size=0.2) shape = (28, 28, 1) _x_train = _x_train.reshape(-1, shape[0], shape[1], shape[2]) _x_test = _x_test.reshape(-1, shape[0], shape[1], shape[2]) print("x_train : ", _x_train.shape) print("y_train : ", _y_train.shape) print("x_val : ", _x_val.shape) print("y_val : ", _y_val.shape) print("x_test : ", _x_test.shape) print("y_test : ", _y_test.shape) { x_train : (48000, 28, 28, 1) y_train : (48000,) x_val : (12000, 28, 28) y_val : (12000,) x_test : (10000, 28, 28, 1) y_test : (10000,)} model.compile(optimizer='sgd', loss='sparse_categorical_crossentropy', metrics=['accuracy']) epochs=5 batch_size = 128 history = model.fit(_x_train, _y_train, batch_size=batch_size, epochs=epochs, verbose=1, validation_data=(_x_test, _y_test))
jbpb0

2020/12/16 09:44

データを減らすというのは、具体的にどのようにしたいのでしょうか? 現状では、mnistの学習用データ60000をtrain 48000、val 12000に分けているだけです 上のコメントにも書きましたけど、たとえば下記に紹介されているような方法でデータを減らすことができるようです https://teratail.com/questions/117687 私はそのコードを動かしてテストしてないので、ちゃんと動くかは分かりません
kazushi07

2020/12/16 09:53

データを減らすというのは、学習させる訓練データを60000枚より少なくさせたいです。そうすることで60000枚の時と少なくしたときの学習差を調べたいと思っています。
jbpb0

2020/12/16 10:01

とりあえず、紹介した過去の質問を読んでみてください 60000を1000と59000に分けて、1000の方だけ使うやり方が書かれてます もちろん、分け方は自由なので、20000と40000とかにも分けられます
kazushi07

2020/12/16 10:11

わかりました ありがとうございます。
guest

回答1

0

python

1model.fit()

の引数が間違ってます
正しい書き方は、たとえば下記を参考に
Keras で MNIST データの学習を試してみよう

x... の型が、ネットワークの定義と合ってません
print("x_train... の結果と見比べたら分かりますが、

python

1input_shape=(28, 28, 1)

の最後の「1」の分が足りません

python

1train_test_split()

のすぐ次に、
TensorFlow + Keras MNIST メモ
の「# reshape」のところみたいなのを入れてください
変数名は、ご自分のコードのに合わせてください

データの減らし方は、たとえば下記に紹介されているような方法で、できるようです
mnistで「各ラベル100件 × 10種類の1000件」を抽出したい(ラベル毎のバラつきが出ないよう抽出したい)
60000を1000と59000に分けて、1000の方だけ使うやり方が書かれてます
もちろん、分け方は自由なので、20000と40000とかにも分けられます

投稿2020/12/31 09:03

jbpb0

総合スコア7653

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問