自前のデータセットの作成方法について

Question

### 前提・実現したいこと
今年の4月から機械学習の勉強を始めた大学院生です。

横軸が時間、縦軸が力のグラフを分類してくれるモデルを作りたいと考えています。
そのため、測定したデータを使ってデータセットの作成をしたいです。

データはグラフの画像ではなく、CSV形式を使用します。
CSVデータは分類したいパターンごとにフォルダ分けしています。

画像のデータセットに関しての情報は出ていますが、
CSVデータのデータセット作成方法の情報が見つからず、教えていただきたいです。

参考にしたページ
https://qiita.com/sey323/items/00bdf7527eb389893ab5

### 補足情報（FW/ツールのバージョンなど）
Windows、Anaconda、Tensorflow　1.10.0で行いたいと考えています。
質問で足りない情報などありましたら指摘よろしくお願いします。

Accepted Answer

## どのようにデータセットを作ればよいのか

```
画像のデータセットに関しての情報は出ていますが、
CSVデータのデータセット作成方法の情報が見つからず、教えていただきたいです。
```

画像でも数値データでも同じです。
分類問題ということは、(データ、クラス) で1つのサンプルになります。
今回は`横軸が時間、縦軸が力のグラフ`とのことなので、データは数値データになるかと思います。

* CSV からデータを読み込むところは、`np.loadtxt()` を使ってください。
* 横軸の時刻はデータに含めなくてもいいかもしれません。
* 時系列の長さがサンプルによって異なる場合は、指定の長さを決め、それより長いものは打ち切る、短いものは0埋め等して、揃えてください。(ミニバッチとして流すため)

## サンプルコード

ノイズを含む sin/cos 関数列を2000個生成してデータセットを作り、2クラス分類する問題を考えてみました。

Keras による例を以下に示します。

```python
import matplotlib.pyplot as plt
import numpy as np
from keras.layers import Dense
from keras.models import Sequential
from keras.utils import np_utils
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

time_len = 1000
time = np.linspace(0, 100, time_len)

class Label:
    SIN = 0
    COS = 1

data = []
labels = []
for i in range(1000):
    y1 = np.sin(time) + np.random.randn(time_len)
    y2 = np.cos(time) + np.random.randn(time_len)
    data.extend([y1, y2])                # データ
    labels.extend([Label.SIN, Label.COS])  # 正解ラベル
data = np.array(data)
labels = np.array(labels)

print('data.shape', data.shape)      # data.shape (2000, 1000)
print('labels.shape', labels.shape)  # labels.shape (2000,)

# データをそれぞれ学習データ75%、テストデータ25%の割合で分割する。
# 同時にシャッフルもされる。
x_train, x_test, y_train, y_test = \
    train_test_split(data, labels, test_size=0.2)

# y_train を one-hot 表現にする。
y_train = np_utils.to_categorical(y_train)

# モデルを作成する。
model = Sequential()
model.add(Dense(100, activation='relu', input_dim=1000))
model.add(Dense(100, activation='relu'))
model.add(Dense(2, activation='softmax'))
model.compile(
    optimizer='adam',
    loss='categorical_crossentropy',
    metrics=['accuracy'])

# 学習を実行する。
model.fit(x_train, y_train, batch_size=8, epochs=30)

# モデルを保存する。
model.save('model.h5')

# 推論する。
prob = model.predict(x_test, batch_size=len(x))

# 最も確率が高いのを推定クラスとする。
y_pred = np.argmax(prob, axis=1)

# 精度を検証する。
accuracy = accuracy_score(y_test, y_pred)
print('accuracy: {:.2%}'.format(accuracy))  # accuracy: 100.00%
```

## 別のアプローチ

グラフを matplotlib 等で画像化して、CNN モデルを使用するのもありです。