RNNの逆伝播でdbをaxis=0でsumする理由に関して

前提・実現したいこと

ディープラーニングの勉強をしていてRNNの実装を試しているのですが
逆伝播の際に「db=np.sum(dt, axis=0)」とする理由を教えて頂きたいです。

というのも加算レイヤは伝わってきた値をそのまま伝播するものだったと思うからです。
構成が分かりやすいように↓手書きで構成を図示しました。
よろしくお願い致します。

■追記(仮説)
自分なりに考えてみたところ
順伝播でのバイアスの加算は、それぞれのデータ(1個目のデータ、2個目のデータ、...)に対して加算が行われるので逆伝播の際には逆伝搬の値がバイアスの要素に集約される必要があるから「np.sum(dt, axis=0)」となる形ですかね？

該当のソースコード

Python3
1class RNN:
2    def __init__(self, Wx, Wh, b):
3        self.params = [Wx, Wh, b]
4        self.grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)]
5        self.cache = None
6
7    def forward(self, x, h_prev):
8        Wx, Wh, b = self.params
9        t = np.dot(h_prev, Wh) + np.dot(x, Wx) + b
10        h_next = np.tanh(t)
11
12        self.cache = (x, h_prev, h_next)
13        return h_next
14
15    def backward(self, dh_next):
16        Wx, Wh, b = self.params
17        x, h_prev, h_next = self.cache
18
19        dt = dh_next * (1 - h_next ** 2)
20        db = np.sum(dt, axis=0)　　　　　　#こちらが該当箇所です
21        dWh = np.dot(h_prev.T, dt)
22        dh_prev = np.dot(dt, Wh.T)
23        dWx = np.dot(x.T, dt)
24        dx = np.dot(dt, Wx.T)
25
26        self.grads[0][...] = dWx
27        self.grads[1][...] = dWh
28        self.grads[2][...] = db
29
30        return dx, dh_prev

補足情報（FW/ツールのバージョンなど）

「ゼロから作るDeep Learning ❷ ―自然言語処理編」P199

行動規範の内容に同意します

回答2件

https://teratail.com/questions/279579
ここも同じこと言ってるんでここ見ればわかります。
簡単に書くと内積は掛けてから足すんで、これはまだ足していないので足す必要がある。

投稿2021/06/17 04:29

kontikuwa

総合スコア26

本に書かれている構成図では、Repeatノードが省略されています。

まず順伝播において、tanhノードの直下の加算ノードに注目してください。
ここでは、2つのMatMulノードの加算結果とbを加算します。しかし、前者の形状は（N x H）で、後者（＝b）の形状は(H)なので、本来はそのまま加算はできません。順伝播の実装で単純にnp.dot(h_prev, Wh) + np.dox(x, Wx) + bと加算できているのは、NumPyのブロードキャストが働いているためです。

以下、正しい構成図を添付しますが、実際にはここに Repeat ノードがあります。