ニューラルネットワークに関する質問（TensorFlow）

Question

ニューラルネットワークでわからないことをいくつか列挙します。
わかるものだけ回答していただければありがたいです。

1.活性化関数について
step/ReLu/sigmoid/tanh/softmax/elu/softsin/恒等関数　など様々な活性化関数がありますが、隠れ層・出力層での使い分けの基準ってどういう基準で使い分けているのですか？活性化関数によっては、出力値が0~1に収まるものと、そうでないものもありますが、これも関係しているのですか？また、予測問題と分類問題でも使い分けるのですか？

2.損失関数について
「1.活性化関数について」の質問と重なる部分もあると思いますが、書籍などを見ると、分類問題は交差エントロピー誤差関数（多クラス用）を用いて、損失関数を定義していましたが、数値の予測問題を実施したいときの損失関数は何を用いれば良いですか？最小2乗誤差？

3.重み更新方法
確率的勾配降下法/Adam/Adagrad/Adadelta/Momentum/RMSprop　など様々ありますが、優劣ってあるのですか？また、使い分けの基準はなんですか？

4.mnistのクラス分類（CNNでなく、通常のNN）
書籍を見ながら、作成したしたmnistのクラス分類のコードです。畳み込みニューラルネットワークは使用せず、通常のニューラルネットワークを使用しました。
ここでの質問は、
「クラス分類のやり方としてなにか根本的な間違いはないか？一般的なやり方と違うか？」
「精度を高めるための改善点は何か？ハイパーパラメータの設定？重み・バイアス項の初期値？」
の2つです。

```python
import numpy as np
import tensorflow as tf
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.utils import shuffle

np.random.seed(0)
tf.set_random_seed(1234)

class DNN(object):
    def __init__(self, n_in, n_hiddens, n_out,how_to_loss,how_to_optimize):
        self.n_in = n_in
        self.n_hiddens = n_hiddens
        self.n_out = n_out
        self.how_to_loss=how_to_loss
        self.how_to_optimize=how_to_optimize
        self.weights = []
        self.biases = []
        self._x = None
        self._t = None,
        self._keep_prob = None
        self._sess = None
        self._history = {'accuracy': [],'loss': []}
    def weight_variable(self, shape):
        initial = tf.truncated_normal(shape, stddev=0.01)
        return tf.Variable(initial)
    def bias_variable(self, shape):
        initial = tf.zeros(shape)
        return tf.Variable(initial)
    def inference(self, x, keep_prob):
        for i, n_hidden in enumerate(self.n_hiddens):
            if i == 0:
                input = x
                input_dim = self.n_in
            else:
                input = output
                input_dim = self.n_hiddens[i-1]
            self.weights.append(self.weight_variable([input_dim, n_hidden]))
            self.biases.append(self.bias_variable([n_hidden]))
            h = tf.nn.relu(tf.matmul(input, self.weights[-1]) + self.biases[-1])
            output = tf.nn.dropout(h, keep_prob)
        self.weights.append(self.weight_variable([self.n_hiddens[-1], self.n_out]))
        self.biases.append(self.bias_variable([self.n_out]))
        y = tf.nn.softmax(tf.matmul(output, self.weights[-1]) + self.biases[-1])
        return y
    def loss(self, y, t):
        if self.how_to_loss=="cross_entropy":
            loss = tf.reduce_mean(-tf.reduce_sum(t * tf.log(y), axis=1))
        return loss
    def training(self, loss):
        if self.how_to_optimize=="GradientDescent":
            optimizer = tf.train.GradientDescentOptimizer(0.01)
        if self.how_to_optimize=="Adadelta":
            optimizer = tf.train.AdadeltaOptimizer(0.01)
        if self.how_to_optimize=="Adagrad":
            optimizer = tf.train.AdagradOptimizer(0.01)
        if self.how_to_optimize=="Momentum":
            optimizer = tf.train.MomentumOptimizer(0.01,0.01)
        if self.how_to_optimize=="Adam":
            optimizer = tf.train.AdamOptimizer()
        train_step = optimizer.minimize(loss)
        return train_step
    def accuracy(self, y, t):
        correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(t, 1))
        accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
        return accuracy
    def fit(self, X_train, Y_train,
            nb_epoch=10, batch_size=100, p_keep=0.5,
            verbose=1):
        x = tf.placeholder(tf.float32, shape=[None, self.n_in])
        t = tf.placeholder(tf.float32, shape=[None, self.n_out])
        keep_prob = tf.placeholder(tf.float32)
        self._x = x
        self._t = t
        self._keep_prob = keep_prob
        y = self.inference(x, keep_prob)
        loss = self.loss(y, t)
        train_step = self.training(loss)
        accuracy = self.accuracy(y, t)
        with tf.Session() as sess:
            sess.run(tf.global_variables_initializer())
            self._sess = sess
            N_train = len(X_train)
            n_batches = N_train // batch_size
            for epoch in range(nb_epoch):
                X_, Y_ = shuffle(X_train, Y_train)
                for i in range(n_batches):
                    start = i * batch_size
                    end = start + batch_size
                    sess.run(train_step, feed_dict={
                        x: X_[start:end],
                        t: Y_[start:end],
                        keep_prob: p_keep
                    })
                loss_ = loss.eval(session=sess, feed_dict={
                    x: X_train,
                    t: Y_train,
                    keep_prob: 1.0
                })
                accuracy_ = accuracy.eval(session=sess, feed_dict={
                    x: X_train,
                    t: Y_train,
                    keep_prob: 1.0
                })
                self._history['loss'].append(loss_)
                self._history['accuracy'].append(accuracy_)

                if verbose:
                    print('epoch:', epoch,
                          ' loss:', loss_,
                          ' accuracy:', accuracy_)
                
            accuracy=accuracy.eval(session=self._sess, feed_dict={self._x: X_test,self._t: Y_test,self._keep_prob: 1.0})
            return accuracy

if __name__ == '__main__':
    with open('./mnist.pkl', 'rb') as f:
        dataset = pickle.load(f)
    mnist_data=dataset['train_img']
    mnist_target=dataset['train_label']
    n = len(mnist_data)
    N = 10000 
    indices = np.random.permutation(range(n))[:N] 
    X = mnist_data[indices]
    y = mnist_target[indices]
    Y = np.eye(10)[y.astype(int)] 
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y, train_size=0.8)
    model = DNN(n_in=len(X[0]),n_hiddens=[200, 200, 200],n_out=len(Y[0]),how_to_loss="cross_entropy",how_to_optimize="GradientDescent")
    accuracy = model.fit(X_train, Y_train,nb_epoch=10,batch_size=200,p_keep=0.5)
print('accuracy: ', accuracy)
```
5.勾配降下法・確率的勾配降下法・ミニバッチ学習[1]
まず、以下のような認識で合ってますか？

|名称|方法|デメリット・メリット|
|:--|:--:|:--:|
|勾配降下法|全データで損失関数を計算し更新|メモリ不足に陥る|
|確率的勾配降下法|１つのデータで損失関数を計算し更新|勾配降下法に比べ局所最適解に陥らない|
|ミニバッチ学習法|n個のデータで損失関数を計算し更新|確率的勾配降下法よりも計算時間が短い|

次に、確率的勾配降下法とミニバッチ学習を比べたときメリットは計算時間の違いだけですか？
また、精度の点で優劣はありますか？

6.勾配降下法・確率的勾配降下法・ミニバッチ学習[2]
次に、上記のコードでは、ミニバッチ学習をさせていますが、
勾配降下法に変更しようとすると、
```python
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    self._sess = sess
    N_train = len(X_train)
    for epoch in range(nb_epoch):
        X_, Y_ = shuffle(X_train, Y_train)
        sess.run(train_step, feed_dict={
            x: X_[0:N_train],
            t: Y_[0:N_train],
            keep_prob: p_keep
        })
```
確率的勾配降下法にしようとすると、
```python
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    self._sess = sess
    N_train = len(X_train)
    for epoch in range(nb_epoch):
        X_, Y_ = shuffle(X_train, Y_train)
        for i in range(N_train):
            sess.run(train_step, feed_dict={
                x: np.reshape(X_[i],(1,784)),
                t: np.reshape(Y_[i],(1,10)),
                keep_prob: p_keep
            })
```
に変更するだけでいいと思ったのですが、確率的勾配降下法の方だけ、損失関数の計算がうまくいかないので、重みも更新されません。どこを変更すれば良いですか？勾配降下法のほうはあっていますか？

Accepted Answer

1
ゼロイチの間なら確率として解釈できます。
そうでなくても、シフトすればゼロイチの間に収めることができます。
表現力が異なるので、問題によって得意不得意があります。
層の数、ノードの数、過学習するかどうかなど総合的に判断する必要があります。
ハイパーパラメータの類なので、いろいろと試して決めるべきです。

2
二乗誤差、絶対誤差、対数誤差などいろいろあります。
https://en.m.wikipedia.org/wiki/Hinge_loss
のようなものも。

3
だいたいの優劣はあります。
新しいものほど性能が良いです。
新しいものほどmnistを学習する際の性能が良いです。
安定性と収束するまでの反復回数が異なります。

4
スキップ

5
偏りの強い分類の際にミニバッチの方が性能が出る感覚があります。

6
全体で学習してうまく行くのなら、一つずつやって同じ学習率だと変な極値にはまります。

名称	方法	デメリット・メリット
勾配降下法	全データで損失関数を計算し更新	メモリ不足に陥る
確率的勾配降下法	１つのデータで損失関数を計算し更新	勾配降下法に比べ局所最適解に陥らない
ミニバッチ学習法	n個のデータで損失関数を計算し更新	確率的勾配降下法よりも計算時間が短い

関連した質問