機械学習用のデータセットについて

Question

お世話になります。
現在、機械学習に興味があり勉強中です。

昨今話題になっているディープラーニングを勉強したいと思い、
tensorflowのチュートリアルを試してみました。
tensorflowには予め、mnistやcifar-10などのデータセットが
組み込まれていますが、自分で用意したデータを試してみたいと考えております。

例えば、画像認識をしたい場合、mnistを参考にしますと
「訓練画像と訓練ラベル、テスト画像とテストラベル」が必要であると認識しているのですが、

「訓練画像と訓練ラベル」そして「テスト画像とテストラベル」をそれぞれ具体的にどうやって対応させるのか。
ということが理解できておりません。

何卒ご教示のほどお願い申し上げます。

※色々なサイトを見ていると、この作業を「ラベル付け」と表現されているようですが、具体的にどういう作業を行えば良いのかイメージできておりません。（ラベル付けされたものが何か特別なファイル形式にする必要がある？1フォルダに1画像を入れて、フォルダ名と画像名を対応させる？）

Accepted Answer

`学習対象のデータ構造`と`保存ファイル（データセット）の構造`の２つに分けて説明したいと思います。

`学習対象のデータ構造`とは、機械学習の処理対象のデータ構造です。
MNISTでは「サイズ28*28で白黒256階調」の画像です。
また、１つの画像と１つのラベル（その画像が何を表しているか）は１対１で対応します。
たとえば「１っぽい画像」のラベル値は`1`になります。
この「画像」と「ラベル値」の対応付けは、一般的には人間が行う必要があります。
この画像とラベルの組が複数まとまったものが`データセット`になります。

また、ここでのデータ構造（画像形式）は、全データセットで共通である必要があります。
もし異なるサイズなどの画像を用いたい場合は、あらかじめ28*28のサイズなりに正規化しておく必要があります。

ちなみに[TensorFlow : Get Started : ML 初心者向けの MNIST](http://tensorflow.classcat.com/2016/02/03/tensorflow-tutorials-mnist-for-ml-beginners/)
では、縦横２次元画像を、28*28=784個の要素数の１次元データ（＝入力ノード）として扱っています。

次に`保存ファイル（データセット）の構造`とは、データセットをファイルなどの外部に保存するためのデータ構造です。
これは、データセットの提供者が自由に決めることができます。
たとえば、以下のようなテキストCSVファイルでもよいです。
```
# 画像データ＝28*28=784個の1byte16進値, ラベル10進値
00,01,0F,...,E0,1	# １画像＋ラベルデータ
00,05,08,...,F1,2
 :
```

また、MNINST,CIFAR-10の具体的なデータ（ファイル）構造については以下が参考になります。
MNINST  :[MNISTにおける入力データの詳細](http://qiita.com/mine820/items/e9c08439465a5580a9cb)
CIFAR-10:[TensorFlowでデータの読み込み ― 画像を分類するCIFAR-10の基礎](http://www.buildinsider.net/small/booktensorflow/0201)

たとえばMNISTでは画像とラベルを別ファイルに持たせており、画像とラベルは順序位置で対応しています。

以上より、あなた専用のデータセットの読み書き処理を用意すれば、MNISTと同じように扱うことができることが理解いただけるかと思います。
どのようなコードを書けばよいかは、実際のコード[tensorflow/tensorflow/contrib/learn/python/learn/datasets/mnist.py](https://github.com/tensorflow/tensorflow/blob/master/tensorflow/contrib/learn/python/learn/datasets/mnist.py)などが参考になります。

関連した質問