機械学習において層数について教えて欲しいです

機械学習初心者です。
ニューラルネットワークで層数をと精度がどの様な関係にあるのか
活性化関数を使わずに実験を行なっていました。
実験とはMNISTの画像分類をしています。
そうすると、
２層から４層までは精度は上昇していましたが、
５層目から急に精度が落ちてしまい
５層目以降では飽和してしまいました。
なお、検証は１０層まで行いました。

５層目から急に精度が落ちた原因の考察がわからず悩んでいます。

何かアドバイスまたは参考になるサイトや文献がありましたら
教えていただけると助かります。

よろしくお願い致します。

ソースは下記です。

Python
1from __future__ import print_function
2import numpy as np
3from keras.datasets import mnist
4from keras.models import Sequential
5from keras.layers.core import Dense, Dropout, Activation
6from keras.optimizers import SGD
7from keras.utils import np_utils
8from make_tensorboard import make_tensorboard
9
10
11np.random.seed(1671)  # for reproducibility
12
13# network and training
14NB_EPOCH = 20
15BATCH_SIZE = 128
16VERBOSE = 1
17NB_CLASSES = 10   # number of outputs = number of digits
18OPTIMIZER = SGD()  # optimizer, explained later in this chapter
19N_HIDDEN = 128
20VALIDATION_SPLIT = 0.2  # how much TRAIN is reserved for VALIDATION
21DROPOUT = 0.3
22
23# data: shuffled and split between train and test sets
24(X_train, y_train), (X_test, y_test) = mnist.load_data()
25
26# X_train is 60000 rows of 28x28 values --> reshaped in 60000 x 784
27RESHAPED = 784
28#
29X_train = X_train.reshape(60000, RESHAPED)
30X_test = X_test.reshape(10000, RESHAPED)
31X_train = X_train.astype('float32')
32X_test = X_test.astype('float32')
33
34# normalize
35X_train /= 255
36X_test /= 255
37print(X_train.shape[0], 'train samples')
38print(X_test.shape[0], 'test samples')
39
40# convert class vectors to binary class matrices
41Y_train = np_utils.to_categorical(y_train, NB_CLASSES)
42Y_test = np_utils.to_categorical(y_test, NB_CLASSES)
43
44# M_HIDDEN hidden layers
45# 10 outputs
46# final stage is softmax
47
48model = Sequential()
49model.add(Dense(N_HIDDEN, input_shape=(RESHAPED,)))
50
51model.add(Dense(N_HIDDEN))
52model.add(Dense(N_HIDDEN))#この行のみを増やして実験
53
54
55model.add(Dense(NB_CLASSES))
56model.add(Activation('softmax'))
57model.summary()
58
59model.compile(loss='categorical_crossentropy',
60              optimizer=OPTIMIZER,
61              metrics=['accuracy'])
62
63callbacks = [make_tensorboard(set_dir_name='keras_MINST_V3')]
64
65model.fit(X_train, Y_train,
66          batch_size=BATCH_SIZE, epochs=NB_EPOCH,
67          callbacks=callbacks,
68          verbose=VERBOSE, validation_split=VALIDATION_SPLIT)
69
70score = model.evaluate(X_test, Y_test, verbose=VERBOSE)
71print("\nTest score:", score[0])
72print('Test accuracy:', score[1])
73

行動規範の内容に同意します

回答1件

ベストアンサー

５層目から急に精度が落ちた原因の考察がわからず悩んでいます。

層を増やすほど、調整しなければならないパラメータが増えて学習は難しくなります。

層数を増やすことによるデメリット

学習するパラメータ数が多くなり、調整するためにより大量のデータが必要になる
過学習が起こりやすくなり、汎化性能が落ちる
勾配消失問題が起こって学習が進まなくなる
計算量が増える

etc...

なので、層を増やすほど精度が上がるというわけではありません。質問のように全結合層を重ねただけのモデルでは3層ぐらいが限界でしょう。

タスクの難しさ (MNIST は簡単) やデータ量に応じて、適した層の数というのは変わり、どのくらいがよいかは実験しなければわかりません。
今回、4層のときが一番良かったのであれば、それが適した層数だったということです。

ショートカット構造を導入した ResNet を使うと層数をもう少し増やしても学習はうまくいくかもしれません。

投稿2021/01/25 13:39

編集2021/01/25 13:42

tiitoi

総合スコア21956

watchdogs

2021/01/25 14:04

早速のご返答ありがとうございます。頂いた回答を元にもう少し教えていただけますか。＞学習するパラメータ数が多くなり、調整するためにより大量のデータが必要になる＞計算数が増える総数を増やすことで計算量が増えることは安易に理解できます。それが精度低下にどの様な関係をもたらすのか知りたいです。＞過学習が起こりやすくなり、汎化性能が落ちる過学習が起こっている判断はどのデータをどの様にみたらわかりますか。＞勾配消失問題が起こって学習が進まなくなるこれは活性化関数の勾配曲線の認識でよろしいですか。お手数おかけします。よろしくお願い致します。

tiitoi

2021/01/25 14:25 編集

> それが精度低下にどの様な関係をもたらすのか知りたいです。「層数を増やすことのデメリット」として上げたので、精度低下とは関係ないです。計算量が増えて、学習時間が長くなるというのもデメリットではあるので挙げました。 > 過学習が起こっている判断はどのデータをどの様にみたらわかりますか。訓練データに対する精度は上がっているのに、学習に使っていないテストデータ対する精度が頭打ちもしくは悪くなっていたら過学習です。 > これは活性化関数の勾配曲線の認識でよろしいですか。逆伝搬時のデルタの計算は出力層から乗算していくだけなので、順伝搬時に途中の層で0もしくは小さい値が出力されていたら、勾配の値が逆伝搬途中で消失します。以下の記事の「勾配消失問題」の説明がわかりやすいと思います。たぶん、今回の質問のように精度が悪くなった一番の要因はこれじゃないかと https://nnadl-ja.github.io/nnadl_site_ja/chap5.html

watchdogs

2021/01/26 02:25

記事の参照及びわかりやすい解説ありがとうございました。これらの情報を基にまた勉強します！

行動規範の内容に同意します