前提・実現したいこと
ディープラーニングの勉強をしていてRNNの実装を試しているのですが
逆伝播の際に「db=np.sum(dt, axis=0)」とする理由を教えて頂きたいです。
というのも加算レイヤは伝わってきた値をそのまま伝播するものだったと思うからです。
構成が分かりやすいように↓手書きで構成を図示しました。
よろしくお願い致します。
■追記(仮説)
自分なりに考えてみたところ
順伝播でのバイアスの加算は、それぞれのデータ(1個目のデータ、2個目のデータ、...)に対して加算が行われるので逆伝播の際には逆伝搬の値がバイアスの要素に集約される必要があるから「np.sum(dt, axis=0)」となる形ですかね?
該当のソースコード
Python3
1class RNN: 2 def __init__(self, Wx, Wh, b): 3 self.params = [Wx, Wh, b] 4 self.grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)] 5 self.cache = None 6 7 def forward(self, x, h_prev): 8 Wx, Wh, b = self.params 9 t = np.dot(h_prev, Wh) + np.dot(x, Wx) + b 10 h_next = np.tanh(t) 11 12 self.cache = (x, h_prev, h_next) 13 return h_next 14 15 def backward(self, dh_next): 16 Wx, Wh, b = self.params 17 x, h_prev, h_next = self.cache 18 19 dt = dh_next * (1 - h_next ** 2) 20 db = np.sum(dt, axis=0) #こちらが該当箇所です 21 dWh = np.dot(h_prev.T, dt) 22 dh_prev = np.dot(dt, Wh.T) 23 dWx = np.dot(x.T, dt) 24 dx = np.dot(dt, Wx.T) 25 26 self.grads[0][...] = dWx 27 self.grads[1][...] = dWh 28 self.grads[2][...] = db 29 30 return dx, dh_prev
補足情報(FW/ツールのバージョンなど)
「ゼロから作るDeep Learning ❷ ―自然言語処理編」P199
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。