質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.34%
深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

2回答

4317閲覧

RNNの逆伝播でdbをaxis=0でsumする理由に関して

bigbabysan

総合スコア3

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2020/07/25 11:50

編集2020/07/27 07:42

前提・実現したいこと

ディープラーニングの勉強をしていてRNNの実装を試しているのですが
逆伝播の際に「db=np.sum(dt, axis=0)」とする理由を教えて頂きたいです。

というのも加算レイヤは伝わってきた値をそのまま伝播するものだったと思うからです。
構成が分かりやすいように↓手書きで構成を図示しました。
よろしくお願い致します。

手書きでRNNの構成図を書きましたm(_ _)m

■追記(仮説)
自分なりに考えてみたところ
順伝播でのバイアスの加算は、それぞれのデータ(1個目のデータ、2個目のデータ、...)に対して加算が行われるので逆伝播の際には逆伝搬の値がバイアスの要素に集約される必要があるから「np.sum(dt, axis=0)」となる形ですかね?

該当のソースコード

Python3

1class RNN: 2 def __init__(self, Wx, Wh, b): 3 self.params = [Wx, Wh, b] 4 self.grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)] 5 self.cache = None 6 7 def forward(self, x, h_prev): 8 Wx, Wh, b = self.params 9 t = np.dot(h_prev, Wh) + np.dot(x, Wx) + b 10 h_next = np.tanh(t) 11 12 self.cache = (x, h_prev, h_next) 13 return h_next 14 15 def backward(self, dh_next): 16 Wx, Wh, b = self.params 17 x, h_prev, h_next = self.cache 18 19 dt = dh_next * (1 - h_next ** 2) 20 db = np.sum(dt, axis=0)      #こちらが該当箇所です 21 dWh = np.dot(h_prev.T, dt) 22 dh_prev = np.dot(dt, Wh.T) 23 dWx = np.dot(x.T, dt) 24 dx = np.dot(dt, Wx.T) 25 26 self.grads[0][...] = dWx 27 self.grads[1][...] = dWh 28 self.grads[2][...] = db 29 30 return dx, dh_prev

補足情報(FW/ツールのバージョンなど)

「ゼロから作るDeep Learning ❷ ―自然言語処理編」P199

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

https://teratail.com/questions/279579
ここも同じこと言ってるんでここ見ればわかります。
簡単に書くと内積は掛けてから足すんで、これはまだ足していないので足す必要がある。

投稿2021/06/17 04:29

kontikuwa

総合スコア26

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

本に書かれている構成図では、Repeatノードが省略されています。

まず順伝播において、tanhノードの直下の加算ノードに注目してください。
ここでは、2つのMatMulノードの加算結果とbを加算します。しかし、前者の形状は(N x H)で、後者(=b)の形状は(H)なので、本来はそのまま加算はできません。順伝播の実装で単純にnp.dot(h_prev, Wh) + np.dox(x, Wx) + bと加算できているのは、NumPyのブロードキャストが働いているためです。

以下、正しい構成図を添付しますが、実際にはここに Repeat ノードがあります。

イメージ説明

この部分だけ見れば Affine レイヤと同じになります。そのため、逆伝播ではdb=np.sum(dt, axis=0)と加算する必要がある訳です。

「1.3.5.2 Affine レイヤ」の構成図やコードと見比べると理解しやすくなるかも知れません。

投稿2020/09/13 04:26

segavvy

総合スコア1038

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.34%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問