ゼロから学ぶDeepLearning　4章についての質問

###前提・実現したいこと

現在ゼロから学ぶDeepLearningを使用して機械学習について勉強しています。
その中で、第四章の二層のネットワーク作成で躓いてしまったことがありました。
作成自体は理解できたのですが、なぜうまく動作しているのか理解ができませんでした。

###二層のネットワークのコード

Python
1import sys, os
2sys.path.append(os.pardir)
3from common.functions import *
4from common.gradient import numerical_gradient
5
6class TwoLayerNet:
7    
8    def __init__(self, input_size, hidden_size, output_size, weight_init_std = 0.01):
9        """
10            input_size・・入力層の数
11            hidden_size・・中間層の数
12            output_size・・出力層の数
13            weight_init_std
14        """
15        
16        #重みの初期化
17        self.params = {}
18        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)
19        self.params['b1'] = np.zeros(hidden_size)
20        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size)
21        self.params['b2'] = np.zeros(output_size)
22        
23        
24    def predict(self, x):
25        """
26            入力値をもとに予測をする
27        """
28        
29        W1, W2 = self.params['W1'], self.params['W2']
30        b1, b2 = self.params['b1'], self.params['b2']
31        
32        a1 = np.dot(x, W1) + b1
33        z1 = sigmoid(a1)
34        a2 = np.dot(z1, W2) +  b2
35        y = softmax(a2)
36        return y
37    
38    
39    def loss(self, x, t):
40        """
41            損失関数・・どれぐらい教師データと値が違うかを求める　返り値が大きいほど合っていない
42            x・・入力データ
43            t・・教師データ
44        """
45        y = self.predict(x)
46        return cross_entropy_error(y, t)
47    
48    
49    def accuracy(self, x, t):
50        """
51            返り値・・0から1の値　大きいほど入力データからの予測値と、教師データの値が一致している
52        """
53        y = self.predict(x)
54        y = np.argmax(y, axis=1)
55        t = np.argmax(t, axis=1)
56        
57        accuracy = np.sum(y == t) / float(x.shape[0])
58        return accuracy
59    
60    
61    def numerical_gradient(self, x, t):
62        """
63            重みパラメータに対する勾配を求める
64            x・・入力データ
65            t・・教師データ
66            grads・・勾配を保持するディクショナリ変数
67        """
68        loss_W = lambda W: self.loss(x, t)   #loss_Wはloss関数と等しい
69        grads = {}
70        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
71        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
72        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
73        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
74        return grads
75        
76

###上記の二層ネットワーククラス内で使用しているnumerical_gradientのコード(本に付属しているコード)

Python
1def numerical_gradient(f, x):
2    h = 1e-4 # 0.0001
3    grad = np.zeros_like(x)
4    
5    it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
6    while not it.finished:
7        idx = it.multi_index
8        tmp_val = x[idx]
9        x[idx] = float(tmp_val) + h
10        fxh1 = f(x) # f(x+h)
11        
12        x[idx] = tmp_val - h 
13        fxh2 = f(x) # f(x-h)
14        grad[idx] = (fxh1 - fxh2) / (2*h)
15        
16        x[idx] = tmp_val # 値を元に戻す
17        it.iternext()   
18        
19    return grad

###上記２つのコードに対しての入力コード

Python
1net = TwoLayerNet(input_size=784, hidden_size=100, output_size=10)
2x = np.random.rand(100, 784) #ダミーの入力データ 100枚
3y = net.predict(x)
4print(y.shape)   #(100,10)
5
6t = np.random.rand(100, 10) #ダミーの正解ラベル(100枚分)
7grads = net.numerical_gradient(x, t)

###理解できない点

１．TwoLayerNetクラスのnumerical_gradient関数内で使用されているnumerical_gradient関数は,selfがついていないため、クラスの外側にあるcommon.numerical_gradient関数を使用しているという認識で正しいでしょうか？

２．TwoLayerNetクラスのnumerical_gradient関数を使用した勾配がどうして合っているのかわかりません。
numerical_gradient関数内のラムダ式「loss_W=lamda W:self.loss(x, t)」の引数(x,t)は、TwoLayerNetクラスのnumerical_gradient関数の引数である(self, x,t)の(x,t)から使用しているのでしょうか？

３．TwoLayerNetクラスのnumerical_gradient関数内で使用されている
「grads['W1'] = numerical_gradient(loss_W, self.params['W1'])」についてわからないことがあります。
common.numerical_gradient関数では引数に(f,x)(f・・関数,x・・重み'W1'など)を取っています。
common.numerical_gradient関数の「fxh1 = f(x)」で、self.params['W1']をf関数に入れていますが、このf関数は　ラムダ式である「lamda W: self.loss(x, t)」であるため、self.params['W1']と引数に渡しても、self.params['W2']を引数に渡しても結果が変わらないだろうと思いました。
しかし、色々とデータを代入してみると、['W1']の場合と['W2']の場合で結果が異なってしまいました。どうして違う結果になるのでしょうか。

よろしくお願いいたします。

###補足情報(言語/FW/ツール等のバージョンなど)
使用環境:Mac OS High Sierra
使用ツール:Jupyter Notebook

行動規範の内容に同意します

回答2件

ベストアンサー

この時、例えばnumerical_gradient関数の引数である(f,x)のxに入っているself.params['W1']の値を使用して

fxh1 = f(x)
となっていますが、f関数はもとを辿ればTwoLayerNetクラスのloss関数で(x,t)を使用するため、結局調整したい重みであるself.params['W1']を使用していないように感じました。

numerical_gradient関数の引数である(f,x)のxは**self.params["W1"]の参照を渡しています。numerical_gradient関数で要素毎にx[idx] = float(tmp_val) + hやx[idx] = tmp_val - hでxを更新しています。このxはself.params["W1"]の参照**であるためf(x)が実行されるたびに更新されるという流れになります。
さすがに言葉のみでの説明ではわかりにくいので簡単にコードをまとめました。

python
1# ゼロから学ぶニューラルネットワーク４章の(4.4.2)ニューラルネットワークに対する勾配で使われているコードを使います
2import numpy as np
3from pprint import pprint
4
5
6def sigmoid(x):
7	return 1 / (1 + np.exp(-x))
8
9
10def cross_entropy_error(y, t):
11	if y.ndim == 1:
12		t = t.reshape(1, t.size)
13		y = y.reshape(1, y.size)
14
15	# 教師データがone-hot-vectorの場合、正解ラベルのインデックスに変換
16	if t.size == y.size:
17		t = t.argmax(axis=1)
18
19	batch_size = y.shape[0]
20	return -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size
21
22
23def numerical_gradient(f, x):
24	h = 1e-4  # 0.0001
25	grad = np.zeros_like(x)
26
27	it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
28	while not it.finished:
29		idx = it.multi_index
30		tmp_val = x[idx]
31		x[idx] = float(tmp_val) + h
32		pprint(idx)
33        # hが0.0001のため小数点四桁目以下を切り捨てています
34		pprint("init: {}".format(round(tmp_val, 4)))
35		pprint("f(x+h): {}".format(round(x[idx], 4)))
36		fxh1 = f(x)  # f(x+h)
37		x[idx] = tmp_val - h
38        pprint("f(x-h): {}".format(round(x[idx], 4)))
39		fxh2 = f(x)  # f(x-h)
40		grad[idx] = (fxh1 - fxh2) / (2 * h)
41		x[idx] = tmp_val  # 値を元に戻す
42		it.iternext()
43        break # 1ループ目で終わらせます
44	return grad
45
46
47class simpleNet:
48	def __init__(self):
49		self.W = np.random.randn(2, 3)
50
51	def predict(self, x):
52            # 参照確認用のコメントになります
53		pprint("predict: {}".format(round(self.W[0][0], 4)))
54		return np.dot(x, self.W)
55
56	def loss(self, x, t):
57		z = self.predict(x)
58		y = softmax(z)
59		loss = cross_entropy_error(y, t)
60		return loss
61
62def main():
63	x = np.array([0.6, 0.9])
64	t = np.array([0, 0, 1])
65
66	net = simpleNet()
67	f = lambda w: net.loss(x, t)
68	dW = numerical_gradient(f, net.W)
69
70
71if __name__ == '__main__':
72	main()
73    """
74    (0, 0)
75    まずself.Wの初期値を確認します
76    今回はself.Wの中身全ては確認しません
77    'init: -1.2436'
78    'f(x+h): -1.2435'
79    参照が更新されているので上と下の値が同じであることがわかります
80    'predict: -1.2435'
81    'f(x-h): -1.2437'
82    上記と同様です
83    'predict: -1.2437'
84    """

投稿2018/01/18 12:07

wakame

総合スコア1170

はいそうです。プログラムの先頭部分にfrom common.gradient import numerical_gradient とあるのでcommon以下のgradient.pyに定義されているnumerical_gradientを使用しています。
はいそうです。TwoLayerNetクラスのnumerical_gradient関数の引数(x, t)がラムダ式に渡され、loss_Wに格納されています。
まずself.params['W1']とself.params['W2']は初期値が異なります。以下のコードで確認してみました。

python
1import numpy as np
2from pprint import pprint
3
4input_size=784
5hidden_size = 100
6output_size=10
7weight_init_std = 0.01
8W1 = weight_init_std * np.random.randn(input_size, hidden_size)
9pprint(W1)
10
11"""
12array([[ -4.66963760e-03,  -4.61920583e-03,  -1.34628863e-02, ...,
13         -7.12342008e-03,  -9.51390931e-03,  -1.42363695e-02],
14       [  5.15248205e-03,  -1.81531005e-02,  -9.33031556e-03, ...,
15         -6.03827853e-03,   2.32682820e-02,   1.14371378e-02],
16       [ -1.47480497e-03,  -1.16778968e-02,  -5.36428583e-03, ...,
17          3.24273403e-03,   2.58535969e-03,   4.07705684e-03],
18       ..., 
19       [ -6.12870871e-04,   2.27194176e-02,  -9.20775174e-03, ...,
20         -6.56353954e-03,  -4.82236650e-03,  -8.97790691e-03],
21       [ -1.38384077e-02,  -1.03076298e-02,   3.97350335e-03, ...,
22         -4.14367214e-03,  -7.06703864e-06,   9.48678489e-03],
23       [ -1.24808408e-03,  -4.70239299e-03,   5.48649149e-03, ...,
24          1.01967985e-02,   1.20364877e-02,   2.37953073e-03]])
25"""
26
27W2 = weight_init_std * np.random.randn(input_size, hidden_size)
28pprint(W2)
29
30""" 
31array([[-0.00076081, -0.00396194,  0.00877313, ..., -0.01413236,
32         0.00682878,  0.00223497],
33       [ 0.00896433,  0.00138473, -0.00574664, ...,  0.00085467,
34         0.01578464,  0.00760901],
35       [ 0.00133846, -0.012744  ,  0.00191541, ..., -0.01548384,
36        -0.01866372,  0.01076827],
37       ..., 
38       [ 0.00888638,  0.00104892,  0.01148437, ...,  0.00610676,
39        -0.00137109,  0.00020582],
40       [ 0.00232449, -0.00431334, -0.0065821 , ...,  0.02289721,
41         0.00331537, -0.0168427 ],
42       [-0.01369978,  0.00572917,  0.00457355, ...,  0.01380905,
43         0.00524373, -0.00342188]])
44"""

したがってloss_Wは引数共通であっても両者値が異なるので結果が異なるということになります。

ごめんなさい、最後のこの文の意味がよくわかりませんでした。

しかし、色々とデータを代入してみると、['W1']の場合と['W2']の場合で結果が異なってしまいました。どうして違う結果になるのでしょうか。

投稿2018/01/14 01:17

編集2018/01/14 01:33

wakame

総合スコア1170

ganariya

2018/01/14 04:42

1,2の回答ありがとうございます３についてなのですがクラス外で定義されているnumerical_gradient関数では、引数である「f」を使用して、微分を行っています。この時、例えばnumerical_gradient関数の引数である(f,x)のxに入っているself.params['W1']の値を使用して fxh1 = f(x) となっていますが、f関数はもとを辿ればTwoLayerNetクラスのloss関数で(x,t)を使用するため、結局調整したい重みであるself.params['W1']を使用していないように感じました。