質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.80%

機械学習で使うMNISTのようなデータセットを独自に作成するには

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 1,270

Kuro3210

score 13

プログラミングを初めて約1週間ほどの者です。現在ニューラルネットワークによる画像データの学習・予測プログラムを組もうとしています。
プログラミング技能が低いので、ニューラルネットワークの構築のほとんどをkerasに依存してプログラムを組んでいるのですが、ここで問題があります。

①ネットに落ちているコードの例は、レイヤーの組み方などにフォーカスしているものが多いため、材料として使うデータセットはMNISTなどすでに学習用に構築されたものを使っているものが多く、独自にデータセットを構築する方法がわからない。

②プログラミング能力が低いので、kerasで組んだレイヤーや学習部分のプログラムに影響を与えないように(データセットの作り方のせいで、kerasを使うのを止めてレイヤークラスをゼロからpythonで記述しなおすなどは極力避けたい。レイヤーが複雑になったときに面倒なので。)データセットを構築したい。

③理想はMNISTと同じデータセットの形式をとりたいが、MNISTの形式がわからない。また、MNIST形式にデータセットを構築していく方法がわからない。

の3点です。

現在データセットの構築方法の参考になるWebページなどもなかなか見つからない状態ですので、参考URLなど教えていただけたら幸いです。

また、ニューラルネットの学習用に現在組んでいるプログラムはTensorFlowのホームページに載っている初心者用の練習コードです。
ほとんどコピペですが、参考までに、自分が組んだコードを載せておきます。

#必要なモジュールのインポート
from __future__ import absolute_import, division, print_function

# TensorFlow and tf.keras
import tensorflow as tf
from tensorflow import keras

# Helper libraries
import numpy as np
import matplotlib.pyplot as plt

#MNISTのロード
fashion_mnist = keras.datasets.fashion_mnist

(train_images, train_labels), (test_images, test_labels) = fashion_mnist.load_data()

#画像ファイル(行列式)をピクセル値で0~1に正規化
train_images = train_images / 255.0

test_images = test_images / 255.0

#レイヤーの構築
model = keras.Sequential([
    keras.layers.Flatten(input_shape=(28, 28)),
    keras.layers.Dense(128, activation=tf.nn.relu),
    keras.layers.Dense(10, activation=tf.nn.softmax)
])

#損失関数と最適化計算法を設定
model.compile(optimizer='adam', 
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

#上の条件で最適化計算(学習)
model.fit(train_images, train_labels, epochs=5, batch_size=1000)


Epoch 1/5
60000/60000 [==============================] - 1s 22us/sample - loss: 0.3813 - acc: 0.8669
Epoch 2/5
60000/60000 [==============================] - 1s 21us/sample - loss: 0.3662 - acc: 0.8735
Epoch 3/5
60000/60000 [==============================] - 1s 21us/sample - loss: 0.3549 - acc: 0.8761
Epoch 4/5
60000/60000 [==============================] - 1s 21us/sample - loss: 0.3462 - acc: 0.8789
Epoch 5/5
60000/60000 [==============================] - 1s 21us/sample - loss: 0.3367 - acc: 0.8819

#testデータに外挿。正確性を評価
test_loss, test_acc = model.evaluate(test_images, test_labels)

print('Test accuracy:', test_acc)


10000/10000 [==============================] - 0s 37us/sample - loss: 0.3835 - acc: 0.8661
Test accuracy: 0.8661

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

check解決した方法

0

opencvなどを用いて作成することができました。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

0

「MNIST format」「MNIST 形式」などで Google 検索すれば、たくさん情報が出てきますので、それを参考に新しいデータセットを作ると良いと思います。

MNIST データの仕様を理解しよう
https://weblabo.oscasierra.net/python/ai-mnist-data-detail.html

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.80%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る