データセットの作り方がわからない

Question

### 前提・実現したいこと

「ゼロから作るディープラーニング」を読み終えた学生です。
せっかくディープラーニングをかじり始めたため、自分に役に立つことをディープラーニングを利用してやってみようと考えました。
そこで、KerasもしくはChainerを使用して、下記のmake.girls.moeサイトで自動生成された女の子たち
![自動生成された女の子たち](93aaa149392f1e54b5b5435c8cc58c7c.png)
を自分のタイプか、タイプでないかを分類し、自分の最高の嫁を探そうと考えました。


### 発生している問題

自分の好みか好みでないかを判断するために、まずは自分が好きなタイプのデータセットを作成しなければいけません。
そこで、データはおよそ12000個あるため約1000個のデータに
1・・嫌い　2・・少し嫌い　3・・普通 4・・少し好き　5・・好き
の5分類を自分でつけて、学習を行い残りのデータを分類しようと考えました。

しかし、ゼロから作るディープラーニングではMNISTを使用し、データセットの作成が記述されておらず関数を使用してデータセットをダウンロードする方式だったので、データ・セットを作るやり方が記述されておりませんでした。
また、インターネットで調べてみても、データセットをすでに作り終わっており、分類し始めるところからでした。

データセットをどうやって作っているのかアドバイスいただければ幸いです。


### 補足情報（FW/ツールのバージョンなど）

環境
・iMac
・Jupyter Notebook
・make.girls.moe（画像を生成させていただいたサイト）

Accepted Answer

私も「ゼロから作るDeeplearning」からAIの勉強を始めましたが、自分なりに色々試行錯誤した結果なんとかできたようなものなので参考程度にしてください。

まずMNISTデータのように画像を配列に変える必要があります。私はCV2をインストールしてこれを行っており、CODEは以下のようなものです。

```python
filenames = os.listdir(r"C:\Users\Desktop\data") #dataというフォルダにある画像を読み込み
num_files = len(filenames) #画像数を把握し

data = np.zeros((num_files,1,h,w)) #画像データの箱を用意し
#画像をひとつずつ読み込み箱に入れていく
for i,filename in zip(range(num_files),filenames):
    one_data = cv2.imread(filename,0) #cv2で画像を読み込んで
    one_data = cv2.resize(one_data,(h,w)) #認識NNに合わせてサイズ変換し
    data[i] = one_data #箱に入れていく
```

このdataが画像データになります。
教師データについては自分なりに考えてみてください。
好き嫌いで5つに分けたいのであれば、教師データは0から4までの値になると思います。
例えば画像データ名を(like_1.png,like_2.png)のように(好き嫌い度_番号.png)のように統一すれば

```python
t = np.zeros((num_files),dtype='int32') #教師データの箱を用意し
#画像名から好き嫌い度を読み取って教師データをつくる
for i,filename in zip(range(num_files),filenames):
    like_or_dislike = filename.split("_")[-2] #画像名の一番前のlikeとかを読み込んで
    if like_or_dislike == "like": #likeなら
      t[i] = 0 #0
    if like_or_dislike == "dislike": #dislikeなら
      t[i] = 1 #1
```
このように教師データtを作れます。

それと私の勘ですが、好き嫌いを識別するのは結構むずかしいのでデータ数をもっと増やすか、層数の深い認識NNを作ったほうがいいのかな、とは思います。

参考になれば幸いです。

Answer

mkgreiさんが説明されていますが一応回答として書いておきます。
Kerasでやってみる場合について説明します。またMNISTのデータセットの形状がどのようになっているかを説明してから質問者様が作ろうとしているデータセットについて説明します。
> ゼロから作るディープラーニングではMNISTを使用し、データセットの作成が記述されておらず関数を使用してデータセットをダウンロードする方式だったので、データ・セットを作るやり方が記述されておりませんでした。

まずMNISTのデータセットはどうなっているか確認してみましょう。
```python
from keras.datasets import mnist
from keras.utils import np_utils
import numpy as np
from pprint import pprint

#Kerasでmnistをloadするとラベルをフラットにしてくるので整形しています
nb_classes = 10
y_train = np_utils.to_categorical(y_train, nb_classes)
y_test = np_utils.to_categorical(y_test, nb_classes)
pprint(x_train.shape)
pprint(y_train.shape)
pprint(x_test.shape)
pprint(y_test.shape)
# 1枚取り出してみる
pprint(y_train[0])
pprint(np.argmax(y_train[0]))

"""
~~訓練データ~~
画像のほうは28*28が6万枚あります
(60000, 28, 28)
画像1枚に対応するラベルのほうは0~9までの数字が10パターンありかつ6万個あります
(60000, 10)
~~テストデータ~~
テストのほうは枚数が違うだけなので説明は飛ばします
(10000, 28, 28)
(10000, 10)

~~ラベルについて~~
数字の5を表現するためにonehotの形にしてあります
array([ 0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.])
上の配列の若い方から0, 1, 2, ..., 9と数字に対応しており、
1が立っている部分によってこの配列は特定の数字であると表現することができます
5
"""
```

[人工知能に関する断創録 - KerasでMNIST](http://aidiary.hatenablog.com/entry/20161109/1478696865)

> そこで、データはおよそ12000個あるため約1000個のデータに
1・・嫌い　2・・少し嫌い　3・・普通 4・・少し好き　5・・好き
の5分類を自分でつけて、学習を行い残りのデータを分類しようと考えました。

MNISTとは異なり、質問者様の場合5個に分類できるラベルを12000個用意する必要があります。
```python
import numpy as np
from keras.utils import np_utils

nb_classes = 5
# このcategoryiesというのは質問者様の用意された画像に対するラベルがすでにわかっている状態
# やり方についてはmmssさんが説明されていますね
categories = np.random.randint(nb_classes, size=12000)
pprint(categories)
"""
画像に対応する好きの度合い(0~4)が格納された配列を渡してあげます
array([3, 4, 2, 2, 1, 1, 2, 1, 1, 4,...])
"""
labels = np_utils.to_categorical(categories, nb_classes)
pprint(labels.shape)
# 1枚取り出してみる
pprint(labels[0])
pprint(np.argmax(labels[0]))
"""
(12000, 5)
array([ 0.,  1.,  0.,  0.,  0.])
1
"""
```
画像の訓練、テストデータについてはmmssさんが説明されているので省略しますね。

### 20180215追記
mkgreiさんが言及されていますが正直好き嫌いの連続的な情報を5つに分類するのは難しいかなと自分も思っています。ただここまで質問者様がデータセットやアイディアを準備されているので結果がどうあれひとまずひととりの手順を踏んでみるのは良い勉強になるかなと思いこの回答をしています。

前提・実現したいこと

発生している問題

補足情報（FW/ツールのバージョンなど）

20180215追記

関連した質問