TensorFlowのaccuracyの値が少しも変動しません。

こちらのブログを参考にしてTensorFlowを用いた顔認識のプログラムを作成しています。
『ディープラーニングでザッカーバーグの顔を識別するAIを作る③（データ学習編）』

学習データを生成するmain.pyを実行したのですが、accuracyの値が少しも変動しません。

step 0, training accuracy 0.102362
step 1, training accuracy 0.102362
step 2, training accuracy 0.102362
step 3, training accuracy 0.102362
step 4, training accuracy 0.102362
step 5, training accuracy 0.102362
…
step 46, training accuracy 0.102362
step 47, training accuracy 0.102362
step 48, training accuracy 0.102362
step 49, training accuracy 0.102362
test accuracy 0.101773

各クラスの学習画像の枚数は
クラス1 623枚
クラス2 3376枚
クラス3 2096枚
になります。

解決方法を教えていただきたいです。
よろしくお願いします。

python3系、tensorflow (1.4.1)になります。

以下コード全文です。。

python
1#!/usr/bin/env python
2# -*- coding: utf-8 -*-
3import sys
4import cv2
5import random
6import numpy as np
7import tensorflow as tf
8import tensorflow.python.platform
9
10# 識別ラベルの数（分類フォルダの個数）
11NUM_CLASSES = 3
12# 画像サイズの１辺
13IMAGE_SIZE = 28
14# サイズ×サイズ×色（RGB）=3
15IMAGE_PIXELS = IMAGE_SIZE*IMAGE_SIZE*3
16
17# 学習に必要なデータのpathや学習の規模を設定
18# パラメタの設定、デフォルト値やヘルプ画面の説明文を登録できるTensorFlow組み込み関数
19flags = tf.app.flags
20FLAGS = flags.FLAGS
21# 学習用データ
22flags.DEFINE_string('train', './train.txt', 'File name of train data')
23# 検証用テストデータ
24flags.DEFINE_string('test', './test.txt', 'File name of train data')
25# データを置いてあるフォルダ
26flags.DEFINE_string('train_dir', './images', 'Directory to put the training data.')
27# データ学習訓練の試行回数
28flags.DEFINE_integer('max_steps', 50, 'Number of steps to run trainer.')
29# 1回の学習で何枚の画像を使うか
30flags.DEFINE_integer('batch_size', 20, 'Batch size Must divide evenly into the dataset sizes.')
31# 学習率、小さすぎると学習が進まないし、大きすぎても誤差が収束しなかったり発散したりしてダメとか
32flags.DEFINE_float('learning_rate', 1e-4, 'Initial learning rate.')
33
34sess = tf.Session(config=tf.ConfigProto(allow_soft_placement=True, log_device_placement=True))
35
36# AIの学習モデル部分(ニューラルネットワーク)を作成する
37# images_placeholder: 画像のplaceholder, keep_prob: dropout率のplace_holderが引数になり
38# 入力画像に対して、各ラベルの確率を出力して返す
39def inference(images_placeholder, keep_prob):
40
41  # 重みを標準偏差0.1の正規分布で初期化する
42  def weight_variable(shape):
43    initial = tf.truncated_normal(shape, stddev=0.1)
44    return tf.Variable(initial)
45
46  # バイアスを標準偏差0.1の正規分布で初期化する
47  def bias_variable(shape):
48    initial = tf.constant(0.1, shape=shape)
49    return tf.Variable(initial)
50
51  # 畳み込み層を作成する
52  def conv2d(x, W):
53    return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')
54
55  # プーリング層を作成する
56  def max_pool_2x2(x):
57    return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],
58                          strides=[1, 2, 2, 1], padding='SAME')
59
60  # ベクトル形式で入力されてきた画像データを28px * 28pxの画像に戻す(?)。
61  # 今回はカラー画像なので3(モノクロだと1)
62  x_image = tf.reshape(images_placeholder, [-1, IMAGE_SIZE, IMAGE_SIZE, 3])
63
64  # 畳み込み層第1レイヤーを作成
65  with tf.name_scope('conv1') as scope:
66    # 引数は[width, height, input, filters]。
67    # 5px*5pxの範囲で画像をフィルターしている。今回はカラー画像なのでinputは3?
68    # 32個の特徴を検出する
69    W_conv1 = weight_variable([5, 5, 3, 32])
70    # バイアスの数値を代入
71    b_conv1 = bias_variable([32])
72    # 特徴として検出した有用そうな部分は残し、特徴として使えなさそうな部分は
73    # 0として、特徴として扱わないようにしているという理解(Relu関数)
74    h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)
75
76  # プーリング層1の作成
77  # 2*2の枠を作り、その枠内の特徴を1*1分にいい感じに圧縮させている。
78  # その枠を2*2ずつスライドさせて画像全体に対して圧縮作業を適用するという理解
79  # ざっくり理解で細分化された特徴たちをもうちょっといい感じに大まかにまとめる(圧縮する)
80  with tf.name_scope('pool1') as scope:
81    h_pool1 = max_pool_2x2(h_conv1)
82
83  # 畳み込み層第2レイヤーの作成
84  with tf.name_scope('conv2') as scope:
85    # 第一レイヤーでの出力を第2レイヤー入力にしてもう一度フィルタリング実施。
86    # 64個の特徴を検出する。inputが32なのはなんで?(教えて欲しい)
87    W_conv2 = weight_variable([5, 5, 32, 64])
88    # バイアスの数値を代入(第一レイヤーと同じ)
89    b_conv2 = bias_variable([64])
90    # 検出した特徴の整理(第一レイヤーと同じ)
91    h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
92
93  # プーリング層2の作成(ブーリング層1と同じ)
94  with tf.name_scope('pool2') as scope:
95    h_pool2 = max_pool_2x2(h_conv2)
96
97  # 全結合層1の作成
98  with tf.name_scope('fc1') as scope:
99    W_fc1 = weight_variable([7*7*64, 1024])
100    b_fc1 = bias_variable([1024])
101    # 画像の解析を結果をベクトルへ変換
102    h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
103    # 第一、第二と同じく、検出した特徴を活性化させている
104    h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)
105    # dropoutの設定
106    # 訓練用データだけに最適化して、実際にあまり使えないような
107    # AIになってしまう「過学習」を防止の役割を果たすらしい
108    h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
109
110  # 全結合層2の作成(読み出しレイヤー)
111  with tf.name_scope('fc2') as scope:
112    W_fc2 = weight_variable([1024, NUM_CLASSES])
113    b_fc2 = bias_variable([NUM_CLASSES])
114
115  # ソフトマックス関数による正規化
116  # ここまでのニューラルネットワークの出力を各ラベルの確率へ変換する
117  with tf.name_scope('softmax') as scope:
118    y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)
119
120  # 各ラベルの確率(のようなもの?)を返す
121  return y_conv
122
123# 予測結果と正解にどれくらい「誤差」があったかを算出する
124# logitsは計算結果:  float - [batch_size, NUM_CLASSES]
125# labelsは正解ラベル: int32 - [batch_size, NUM_CLASSES]
126def loss(logits, labels):
127  # 交差エントロピーの計算
128  cross_entropy = -tf.reduce_sum(labels*tf.log(logits))
129  # TensorBoardで表示するよう指定
130  tf.summary.scalar("cross_entropy", cross_entropy)
131  # 誤差の率の値(cross_entropy)を返す
132  return cross_entropy
133
134# 誤差(loss)を元に誤差逆伝播を用いて設計した学習モデルを訓練する
135# 裏側何が起きているのかよくわかってないが、学習モデルの各層の重み(w)などを
136# 誤差を元に最適化して調整しているという理解(?)
137# (誤差逆伝播は「人工知能は人間を超えるか」書籍の説明が神)
138def training(loss, learning_rate):
139  #この関数がその当たりの全てをやってくれる様
140  train_step = tf.train.AdamOptimizer(learning_rate).minimize(loss)
141  return train_step
142
143# inferenceで学習モデルが出した予測結果の正解率を算出する
144def accuracy(logits, labels):
145  # 予測ラベルと正解ラベルが等しいか比べる。同じ値であればTrueが返される
146  # argmaxは配列の中で一番値の大きい箇所のindex(=一番正解だと思われるラベルの番号)を返す
147  correct_prediction = tf.equal(tf.argmax(logits, 1), tf.argmax(labels, 1))
148  # booleanのcorrect_predictionをfloatに直して正解率の算出
149  # false:0,true:1に変換して計算する
150  accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
151  # TensorBoardで表示する様設定
152  tf.summary.scalar("accuracy", accuracy)
153  return accuracy
154
155if __name__ == '__main__':
156  # ファイルを開く
157  f = open(FLAGS.train, 'r')
158  # データを入れる配列
159  train_image = []
160  train_label = []
161  for line in f:
162    # 改行を除いてスペース区切りにする
163    line = line.rstrip()
164    l = line.split()
165#    print ("aaaaa line[%s] %s %s"%(line,l[0],l[1]))
166    # データを読み込んで28x28に縮小
167    img = cv2.imread(l[0])
168    img = cv2.resize(img, (IMAGE_SIZE, IMAGE_SIZE))
169    # 一列にした後、0-1のfloat値にする
170    train_image.append(img.flatten().astype(np.float32)/255.0)
171    # ラベルを1-of-k方式で用意する
172    tmp = np.zeros(NUM_CLASSES)
173    tmp[int(l[1])] = 1
174    train_label.append(tmp)
175  # numpy形式に変換
176  train_image = np.asarray(train_image)
177  train_label = np.asarray(train_label)
178  f.close()
179
180  f = open(FLAGS.test, 'r')
181  test_image = []
182  test_label = []
183  for line in f:
184    line = line.rstrip()
185    l = line.split()
186
187    img = cv2.imread(l[0])
188    img = cv2.resize(img, (IMAGE_SIZE, IMAGE_SIZE))
189    test_image.append(img.flatten().astype(np.float32)/255.0)
190    tmp = np.zeros(NUM_CLASSES)
191    tmp[int(l[1])] = 1
192    test_label.append(tmp)
193  test_image = np.asarray(test_image)
194  test_label = np.asarray(test_label)
195  f.close()
196
197  #TensorBoardのグラフに出力するスコープを指定
198  with tf.Graph().as_default():
199    # 画像を入れるためのTensor(28*28*3(IMAGE_PIXELS)次元の画像が任意の枚数(None)分はいる)
200    images_placeholder = tf.placeholder("float", shape=(None, IMAGE_PIXELS))
201    # ラベルを入れるためのTensor(3(NUM_CLASSES)次元のラベルが任意の枚数(None)分入る)
202    labels_placeholder = tf.placeholder("float", shape=(None, NUM_CLASSES))
203    # dropout率を入れる仮のTensor
204    keep_prob = tf.placeholder("float")
205
206    # inference()を呼び出してモデルを作る
207    logits = inference(images_placeholder, keep_prob)
208    # loss()を呼び出して損失を計算
209    loss_value = loss(logits, labels_placeholder)
210    # training()を呼び出して訓練して学習モデルのパラメーターを調整する
211    train_op = training(loss_value, FLAGS.learning_rate)
212    # 精度の計算
213    acc = accuracy(logits, labels_placeholder)
214
215    # 保存の準備
216    saver = tf.train.Saver()
217    # Sessionの作成(TensorFlowの計算は絶対Sessionの中でやらなきゃだめ)
218    sess = tf.Session()
219    # 変数の初期化(Sessionを開始したらまず初期化)
220    sess.run(tf.global_variables_initializer())
221    # TensorBoard表示の設定(TensorBoardの宣言的な?)
222    summary_op = tf.summary.merge_all()
223    # train_dirでTensorBoardログを出力するpathを指定
224    summary_writer = tf.summary.FileWriter(FLAGS.train_dir, sess.graph)
225
226    # 実際にmax_stepの回数だけ訓練の実行していく
227#    with tf.Session() as sess:
228    for step in range(FLAGS.max_steps):
229        for i in range(len(train_image)//FLAGS.batch_size):
230        # batch_size分の画像に対して訓練の実行
231            batch = FLAGS.batch_size*i
232        # feed_dictでplaceholderに入れるデータを指定する
233            sess.run(train_op, feed_dict={
234                images_placeholder: train_image[batch:batch+FLAGS.batch_size],
235                labels_placeholder: train_label[batch:batch+FLAGS.batch_size],
236                keep_prob: 0.5})
237
238      # 1step終わるたびに精度を計算する
239        train_accuracy = sess.run(acc, feed_dict={
240            images_placeholder: train_image,
241            labels_placeholder: train_label,
242            keep_prob: 1.0})
243
244        print( "step %d, training accuracy %g"%(step, train_accuracy))
245
246      # 1step終わるたびにTensorBoardに表示する値を追加する
247        summary_str = sess.run(summary_op, feed_dict={
248            images_placeholder: train_image,
249            labels_placeholder: train_label,
250            keep_prob: 1.0})
251        summary_writer.add_summary(summary_str, step)
252
253  # 訓練が終了したらテストデータに対する精度を表示する
254  print ("test accuracy %g"%sess.run(acc, feed_dict={
255    images_placeholder: test_image,
256    labels_placeholder: test_label,
257    keep_prob: 1.0}))
258
259  # データを学習して最終的に出来上がったモデルを保存
260  # "model.ckpt"は出力されるファイル名
261  save_path = saver.save(sess, "./model.ckpt")
262

行動規範の内容に同意します

回答1件

ベストアンサー

*説明
カンですが、問題はこれだと思います。

# 1回の学習で何枚の画像を使うか
flags.DEFINE_integer('batch_size', 20, 'Batch size Must divide evenly into the dataset sizes.')

注目するところは、
Batch size Must divide evenly into the dataset sizes.
データセットは、バッチサイズで必ず余りなく割り切れなければならない。

これに対し現状の設定は、

クラス1 623枚

クラス2 3376枚
クラス3 2096枚

つまり、batch size(20)で割り切れない枚数ですので、問題ありですね。

*対策
batch_sizeは20ですので、20の倍数に合うように各クラスの枚数を切り捨てればよいです。

クラス1 620枚
クラス2 3360枚
クラス3 2080枚

追記
Accuracyが変化しない旨@teratailの投稿がありました。
他の対応として、学習率を1桁上げたり下げたりするとうまくいく可能性がありますので試してください。

flags.DEFINE_float('learning_rate', 1e-4, 'Initial learning rate.')

これの'1e-4'を'1e-3'や'1e-5'にして数STEP回すだけでも多分違いが出ると思います。

投稿2017/12/29 08:58

編集2017/12/29 09:18

退会済みユーザー

総合スコア0

poker

2017/12/29 09:13 編集

回答ありがとうございます！早速クラス枚数を620,3360,2080としてmain.pyを実行したのですが現状 step 0, training accuracy 0.10231 step 1, training accuracy 0.10231 step 2, training accuracy 0.10231 step 3, training accuracy 0.10231 step 4, training accuracy 0.10231 step 5, training accuracy 0.10231 step 6, training accuracy 0.10231 step 7, training accuracy 0.10231 step 8, training accuracy 0.10231 step 9, training accuracy 0.10231 となっていて変動しません^^;

退会済みユーザー

2017/12/29 09:14

追記しますね

poker

2017/12/29 09:30

ありがとうございます！ 5stepまで試したところ、1e-3はaccuracy 0.10231のまま5stepが終了したのですが、1e-5にしたところ step 0, training accuracy 0.343234 step 1, training accuracy 0.343234 step 2, training accuracy 0.439604 step 3, training accuracy 0.680088 step 4, training accuracy 0.777998 と学習が始まりました！本当にありがとうございました！

行動規範の内容に同意します