前提・実現したいこと
<Python3.5 / Windows10>
CNNに用いるデータセットを自身で作成しようと考えています。
最終的には、
A×AのRGBを持つカラートレーニング画像(x_train)がn個あるとき
x_train.sahpe
(n, A, A, 3)
ラベルの数がm種類の時、
y_train
([0, 1, 2, ... , m, ..., ])
y_train.shape
(n,)
というようにラベルデータとサンプルデータが別に扱えるような形状に仕上げたいと考えております。
(cifar10やMNISTのようなデータセットを作れると理想)
データセットを作るプロトコルを考えましたが、このアプローチが現実的かどうか分かりません。
また、このアプローチを実際にコードに起こす段階でも行き詰っております。
ウェブ上で参照できる実装例にはウェブスクレイピングなどを用いたり、顔認識などによる自動切り取りを組み込んでいるものが多いですが、あくまでファイル上に保存された画像データをもとにした基本的な方法を知りたいです。
コードベースで教えていただけたら幸いです。
試したこと
データセットを作るプロトコルを考えました。
①画像をnumpyを用いてnumpy配列として読み込む。
(多量の画像を読み込む方法が不明)
↓
②ラベル付けを行う
(下記のサイトを参考にするも実装に失敗。)
↓
テストデータとトレーニングデータに分ける
(下記のサイトを参考にするも実装に失敗)
↓
(x_train, y_train), (x_test, y_test)の形状に仕上げる
しかし、まずこのアプローチの仕方が正しいのかすら分かりません。
こちらのサイトhttps://qiita.com/tigerz17/items/e4d1d5b8e00f7a771177
では、あらかじめフォルダを作成してそれをラベルとして使用しているのでしょうか
回答1件
あなたの回答
tips
プレビュー