画像認識の正解率が低い原因が分からない

Question

pythonを用いて、機械学習による画像認識を試しています。初心者です。
公式サイト「[はじめてのニューラルネットワーク：分類問題の初歩](https://www.tensorflow.org/tutorials/keras/classification)」のモデルを参照し、自作画像で実行してみました。
学習後、学習に使用していない10画像を取込み、予測させたところ、正解率0%でした。
正解率0%の原因は、適切なモデルではない／適切に学習できていない／適切に予測できていない（適切に前処理ができていない？）など色々と考えられますが、原因がわかりません。
どなたかアドバイスをお願いしてもよろしいでしょうか。

■画像データの例
28×28ピクセル、0~9が描かれた各20画像：合計200画像
![画像データ](6a46847c8247d608845f9e9ff3377893.png)

■プログラム（前処理）
```
v_image = []
v_label = []
for index, name in enumerate(folder):
    dir = TRAIN_PATH + "\" + name
    files = glob.glob(dir + "\*.png")
    print(dir)
    for i, file in enumerate(files):
        if COLOR_CHANNEL == 1:
            img = load_img(file, color_mode = "grayscale", target_size=(INPUT_IMAGE_SIZE, INPUT_IMAGE_SIZE))
        elif COLOR_CHANNEL == 3:
            img = load_img(file, color_mode = "rgb", target_size=(INPUT_IMAGE_SIZE, INPUT_IMAGE_SIZE))
        array = img_to_array(img)
        v_image.append(array)
        v_label.append(index)
v_image = np.array(v_image)
v_label = np.array(v_label)
v_image = v_image.astype('float32') 
v_image = v_image / 255.0
v_label = np_utils.to_categorical(v_label, CLASS_NUM) 
train_images, test_images, train_labels, test_labels = train_test_split(v_image, v_label, test_size=0.20)
train_images2 = np.squeeze(train_images)
test_images2 = np.squeeze(test_images)
print(train_images2.shape)
print(test_images2.shape)
#(160, 28, 28)
#(40, 28, 28)

```

■プログラム（モデル）
```
model = keras.Sequential([
    keras.layers.Flatten(input_shape=(28, 28)),
    keras.layers.Dense(128, activation='relu'),
    keras.layers.Dense(10, activation='softmax')
])
model.compile(optimizer='adam', 
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
model.fit(train_images2, train_labels2, epochs=10)

#Epoch 1/10
#160/160 [====] - 0s 241us/step - loss: 0.5764 - accuracy: 0.9375
#Epoch 2/10
#160/160 [====] - 0s 94us/step - loss: 0.4676 - accuracy: 0.9250
#Epoch 3/10
#160/160 [====] - 0s 98us/step - loss: 0.3689 - accuracy: 0.9500
#…略
#Epoch 10/10
#160/160 [====] - 0s 108us/step - loss: 0.1200 - accuracy: 1.0000
```
■プログラム（テストデータの予測）：正解率100%
テストデータ：学習に使用した画像と同様に処理した画像データ：40画像
200画像をtrain data(160), test data(40)に分けている

```
predictions = model.predict(test_images2)
for i in range(10):
    predict=predictions[i]  
    true=test_labels2[i]
    pred=np.argmax(predict)
    if true == pred:
        answer = '〇'
    else:
        answer = '×'
    print("結果",answer,"正解",truename[true],"予測",predname[np.argmax(predict)],"予測確率",100*np.max(predict))

#結果 〇 正解 true1 予測 pred1 予測確率 69.27081942558289
#結果 〇 正解 true6 予測 pred6 予測確率 93.02898645401001
#結果 〇 正解 true1 予測 pred1 予測確率 98.59963059425354
#結果 〇 正解 true1 予測 pred1 予測確率 79.41316366195679
#結果 〇 正解 true5 予測 pred5 予測確率 86.45367622375488
#結果 〇 正解 true7 予測 pred7 予測確率 84.96416211128235
#結果 〇 正解 true0 予測 pred0 予測確率 97.37188220024109
#結果 〇 正解 true7 予測 pred7 予測確率 92.23640561103821
#結果 〇 正解 true8 予測 pred8 予測確率 54.4350802898407
#結果 〇 正解 true2 予測 pred2 予測確率 36.53178811073303

```
■プログラム（自作画像の予測）：正解率0%
自作画像：学習に使用した画像と同様の処理をした（つもり）画像データ：10画像
```
for i in range(10):
    img=Image.open(filenames[i]).convert('RGB')
    img=ImageOps.grayscale(img) 
    img=ImageOps.invert(img) 
    img=img.resize((28,28)) 
    im_np=np.asarray(img) 
    im_np=im_np/255.0 
    x=im_np.reshape([1,28,28]) 
    predict=model.predict(x)  
    true=int(labels[i])
    pred=np.argmax(predict)
    if true == pred:
        answer = '〇'
    else:
        answer = '×'
    print("結果",answer,"正解",truename[true],"予測",predname[np.argmax(predict)],"予測確率",100*np.max(predict))

#結果 × 正解 true0 予測 pred1 予測確率 84.3161940574646
#結果 × 正解 true1 予測 pred9 予測確率 28.724533319473267
#結果 × 正解 true2 予測 pred9 予測確率 38.480645418167114
#結果 × 正解 true3 予測 pred1 予測確率 47.03499674797058
#結果 × 正解 true4 予測 pred3 予測確率 50.42678117752075
#結果 × 正解 true5 予測 pred0 予測確率 24.910038709640503
#結果 × 正解 true6 予測 pred1 予測確率 33.938488364219666
#結果 × 正解 true7 予測 pred8 予測確率 27.09353268146515
#結果 × 正解 true8 予測 pred4 予測確率 41.56872630119324
#結果 × 正解 true9 予測 pred0 予測確率 35.21081507205963
```

Accepted Answer

### 工程を俯瞰する。
データを確保する：**最終的には自前**にしたい
↓
(前処理:リサイズ他）：**最終的には自前**にしたい
↓
ネットワークを定義する：既定のものよりもシンプルなネットワークで試す
(精度は多少落ちたとしても全くもって見当違いにはならなさそう)
↓
学習する：特に触らない
↓
検証する：特に触らない

### 実証されているシンプルなもので試す。
先の工程をまずは実証されてる一番簡単な例で試します。
CNNではMNIST、学習用60000枚、テスト用10000枚です。
これを掲載のネットワークで走らせます。

つづいて、掲載の通りまでデータセットを縮めます。
学習用160枚、テスト用40枚ですね。

|     |既定|削減|
|:--|:--:|:--:|
|**Train**|60000枚|160枚|
|Loss |0.0452|0.7380|
|Acc  |98.6%|88.1%|
|     |      |      |
|**Test **|10000枚|40枚|
|Loss |0.0684|1.1152|
|Acc  |97.9%|67.5%|

精度はともかく、とりあえず正常に学習が進んだことは確認できました。

### 結果について考える。
ここから、既定のMNISTでも、既定より削減したものでも、`TrainのほうがTestよりも精度が高くLossも少ない`ことが分かります。…割り当てたデータ量を考えれば当たり前と言えば当たり前ですが、データ数が多い既定の方ではそれほどLossの変化はありませんし、値も0.0x程度と相当誤差が少ないことが分かります。一方、データ数が少ない方ではLossがまだまだ1近くでもっと減らないかなぁという感じがします。
※ネットワーク構造やデータによってLossの値は変化しますので直感的な理解として捉えて下さい。

NNの事例を考えるときには、正解率も大事ですが、Lossのことも気にしてあげてください。Lossがちゃんと減っているか（迷って何となく正解になってしまったのか、ほぼ迷わずに正解になったのか）にNNの気持ち(?)が出てくると思います。

### どうしたらよいか考える。
実際の生データは見えておりませんが、51sepさんはここに掲載してからも相当検証をされているようですので、画像のチャネル数、寸法、白黒反転、実は画像とラベルとが食い違っているといったポカはないものと思います。とりあえずMNISTで動くことは確認できていますので、ネットワーク構造や学習率もとりあえずは問題ない、と見ていいと思います。
ここまで来ると、もうピンときているかもしれませんが、画像のデータのボリュームが一番怪しいだろうと思います。

生画像が200枚あるそうですので、データ増強をして画像を数万枚まで増やせばそれなりに満足のいくものが得られると思います。
例えば、縦横数pxシフトする、少し回転させる、台形状にひずませる、ごま塩ノイズを加えるなどです。キーワードは`データ増強`、`data augumentation`です。

さらに、
学習用画像160枚は100%、テスト画像40枚は0%という内容も書かれていたかと思います。もしこれが合っているのであれば、これは典型的な過学習ですので、良くある対策は以下の2つです。
- 上記の通りデータ増強等を使ってデータを増やす
- `Dropout`

何か不明な点がありましたらコメントください。

```Python3
import tensorflow as tf

def get_model():
    model = tf.keras.models.Sequential([tf.keras.layers.Flatten(input_shape=(28, 28)),
                                        tf.keras.layers.Dense(128, activation=tf.nn.relu),
                                        tf.keras.layers.Dense(10, activation=tf.nn.softmax) ])
    model.compile(optimizer='adam',loss='sparse_categorical_crossentropy',  metrics=['accuracy'])
    return model

print("---------------------")
print("| MNIST (FULL SIZE) |")
print("---------------------")
mnist = tf.keras.datasets.mnist

(x_train, y_train),(x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
print("Train",x_train.shape)
print("Test",x_test.shape)
# Train (60000, 28, 28)
# Test (10000, 28, 28)

model =  get_model()
model.fit(x_train, y_train, epochs=5)
# Epoch 5/5
# 60000/60000 [==============================]60000/60000 [==============================] - 23s 390us/step - loss: 0.0452 - acc: 0.9862

result =model.evaluate(x_test, y_test)
# 10000/10000 [==============================]10000/10000 [==============================] - 2s 163us/step

print(dict(zip(model.metrics_names, result)))
# {'loss': 0.06843711965740658, 'acc': 0.9788}

print("---------------------")
print("| MNIST   (REDUCED) |")
print("---------------------")

(x_train, y_train),(x_test, y_test) =(x_train[:160], y_train[:160]),(x_test[:40], y_test[:40])
print("Train",x_train.shape)
print("Test",x_test.shape)
# Train (160, 28, 28)
# Test (40, 28, 28)

model =  get_model()
model.fit(x_train, y_train, epochs=5)
# Epoch 5/5
# 160/160 [==============================]160/160 [==============================] - 0s 450us/step - loss: 0.7380 - acc: 0.8812

result =model.evaluate(x_test, y_test)
# 40/40 [==============================]40/40 [==============================] - 0s 3ms/step

print(dict(zip(model.metrics_names, result)))
# s{'loss': 1.1152454614639282, 'acc': 0.675}


```

Answer

自作画像の白と黒を反転してみるのはどうでしょうか?

	既定	削減
Train	60000枚	160枚
Loss	0.0452	0.7380
Acc	98.6%	88.1%

Test	10000枚	40枚
Loss	0.0684	1.1152
Acc	97.9%	67.5%

工程を俯瞰する。

実証されているシンプルなもので試す。

結果について考える。

どうしたらよいか考える。

関連した質問