回答編集履歴

修正

2018/04/14 00:46

投稿

oookabe

スコア126

answer CHANGED Viewed

@@ -1,11 +1,12 @@
 **【DNNの勾配(∝誤差)問題をはっきりにします】**　　　　間違ったところをご指摘下さい。
-DNNのl層目においてcost Cがweightに関数勾配：
+DNNのl層目において**cost C**がl層目の**weight**に関する勾配：
-∂C/∂w[l,jk] = a[l-1,k]*δ[l,j]
+##∂C/∂w[l,j,k] = a[l-1,k]*δ[l,j]
-a[l-1,k] : 前層(l-1)のunit kからの出力；
+a[l-1,k] : 前層(l-1)のunit kからの**出力**；
-δ[l,j] : 本層(l)のunit jの誤差。
+δ[l,j] : 本層(l)のunit jの**誤差**。
-∴　勾配∝誤差
+**∴　勾配∝誤差**
 勾配(∝誤差)の**不安定性**についてactivation関数の**導関数**によく注目されていますが、実は
 DNNのweightにも同様に関係します。
 例えば、i-層に対応するコスト関数の勾配(∝誤差)は以下のよう成分が含まれています。

訂正と追加

2018/04/14 00:46

投稿

oookabe

スコア126

answer CHANGED Viewed

@@ -1,30 +1,35 @@
-**【DNNの~~勾配~~☞誤差問題をはっきりにします】**　　　　間違ったところをご指摘下さい。
+**【DNNの勾配(∝誤差)問題をはっきりにします】**　　　　間違ったところをご指摘下さい。
+DNNのl層目においてcost Cがweightに関数勾配：
+∂C/∂w[l,jk] = a[l-1,k]*δ[l,j]
+a[l-1,k] : 前層(l-1)のunit kからの出力；
+δ[l,j] : 本層(l)のunit jの誤差。
+∴　勾配∝誤差
-DNNのfeedback~~勾配~~☞誤差の不安定性についてactivation関数の導関数によく注目されていますが、実は
+勾配(∝誤差)の**不安定性**についてactivation関数の**導関数**によく注目されていますが、実は
 DNNのweightにも同様に関係します。
-例えば、i-層に対応するコスト関数の~~勾配~~☞誤差は以下のよう成分が含まれています。
+例えば、i-層に対応するコスト関数の勾配(∝誤差)は以下のよう成分が含まれています。
 ---------scalar版(各層に一つunitしかない場合):
-##w[i]*w[i+1]*...*w[N]*σ(z[i])*σ(z[i+1])*...*σ(z[N])
+##w[i]*w[i+1]*...*w[N]*σ(z[i])*σ(z[i+1])*...*σ(z[L])
-ここのw,σは全部scalarです。N:総層数
+w: DNNのweight, scalar; σ: activation関数の**導関数**, scalar; L:総層数
 なので
-**case 1:** 各σ<1であれば、それらをたくさん掛け算すれば0に近くなるので、各Wの値がよっぽど大きくなければ、式全体の値が0に近くなります　⇒　『~~勾配~~☞誤差消失』問題発生。
+**case 1:** 各σ<1であれば、それらをたくさん掛け算すれば0に近くなるので、各wの値がよっぽど大きくなければ、式全体の値が0に近くなります　⇒　『勾配(∝誤差)消失』問題発生。
 ところが、
 **case 2:** σ>=1 の場合も、w同士がほとんど1以下の場合、
-その積が**もっと**1より小さいので、　⇒　『~~勾配~~☞誤差消失』問題発生。
+その積が**もっと**1より小さいので、　⇒　『勾配(∝誤差)消失』問題発生。
 **case 3:** σ>=1の場合、 w同士がほとんど1以上の場合(例えば w=10)、
-すると、10層があれば　W[1]*w[2]*...*w[10] = 10*10*10.... = 10^10 order ⇒『~~勾配~~☞誤差爆発』問題発生。
+すると、10層があれば　W[1]*w[2]*...*w[10] = 10*10*10.... = 10^10 order ⇒『勾配(∝誤差)爆発』問題発生。
 ましてや100層であれば、前端の勾配値が10^100 order になり、天文数値ですよね ⇒『宇宙爆発』
 ReLUの導関数値は1であっても、そしてNNのweightに正則化をかけても、weightの値は皆1以下でなければ、
 沢山の積算によって莫大な数値になるのは『必然的な』出来事で、ReLUとはそれほど関係ありません。
-なので、NNの層数が多いほどfeedbackしてきた前端への~~勾配~~☞誤差値は0か天文数値かのような極端な値になりがちです。
+なので、NNの層数が多いほどfeedbackしてきた前端への勾配(∝誤差)値は0か天文数値かのような極端な値になりがちです。
 これは掛け算の性質によります。
-つまり、**ReLU**にしても, **sigmoid**にしても、NNの層数が多くなると、前端へfeedbackされてきた~~勾配~~☞誤差値0と天文数値の間で大きく振れることは
+つまり、**ReLU**にしても, **sigmoid**にしても、NNの層数が多くなると、前端へfeedbackされてきた勾配(∝誤差)値0と天文数値の間で大きく振れることは
 オリジナルタイプのDNNに限り、原理的に避けられません。
 **ReLU**でなくて、**ResNet** 等は "本当のソリューション"かもしれません。

式訂正

2018/04/14 00:38

投稿

oookabe

スコア126

answer CHANGED Viewed

@@ -1,34 +1,31 @@
-**【DNNの勾配問題をはっきりにします】**　　　　間違ったところをご指摘下さい。
+**【DNNの~~勾配~~☞誤差問題をはっきりにします】**　　　　間違ったところをご指摘下さい。
-DNNのfeedback勾配の不安定性についてactivation関数の導関数によく注目されていますが、実は
+DNNのfeedback~~勾配~~☞誤差の不安定性についてactivation関数の導関数によく注目されていますが、実は
 DNNのweightにも同様に関係します。
-例えば、i-層に対応するコスト関数の勾配は以下のよう成分が含まれます。
+例えば、i-層に対応するコスト関数の~~勾配~~☞誤差は以下のよう成分が含まれています。
+---------scalar版(各層に一つunitしかない場合):
-##W[i]*Σ(z[i])*W[i+1]*Σ(z[i+1])*...*W[N]*Σ(z[N])
+##w[i]*w[i+1]*...*w[N]*σ(z[i])*σ(z[i+1])*...*σ(z[N])
+ここのw,σは全部scalarです。N:総層数
+なので
- W：DNNのweight matrix; Σ：activation関数の導関数の列vector; z:その層の入力
+**case 1:** 各σ<1であれば、それらをたくさん掛け算すれば0に近くなるので、各Wの値がよっぽど大きくなければ、式全体の値が0に近くなります　⇒　『~~勾配~~☞誤差消失』問題発生。
-上記式は理解しにくいので、scalar版(各層に一つunitしかない場合)を以下のようになります：
-##w[i]*w[i+1]*...*W[N]*σ(z[i])*σ(z[i+1])*...*σ(z[N])
-ここのw,σは全部scalarです。
-なので、
-**case 1:** 各σ<1であれば、それらをたくさん掛け算すれば0に近くなるので、各Wの値がよっぽど大きくなければ、式全体の値が0に近くなります　⇒　『勾配消失』問題発生。
 ところが、
 **case 2:** σ>=1 の場合も、w同士がほとんど1以下の場合、
-その積が**もっと**1より小さいので、　⇒　『勾配消失』問題発生。
+その積が**もっと**1より小さいので、　⇒　『~~勾配~~☞誤差消失』問題発生。
 **case 3:** σ>=1の場合、 w同士がほとんど1以上の場合(例えば w=10)、
-すると、10層があれば　W[1]*w[2]*...*w[10] = 10*10*10.... = 10^10 order ⇒『勾配爆発』問題発生。
+すると、10層があれば　W[1]*w[2]*...*w[10] = 10*10*10.... = 10^10 order ⇒『~~勾配~~☞誤差爆発』問題発生。
 ましてや100層であれば、前端の勾配値が10^100 order になり、天文数値ですよね ⇒『宇宙爆発』
 ReLUの導関数値は1であっても、そしてNNのweightに正則化をかけても、weightの値は皆1以下でなければ、
 沢山の積算によって莫大な数値になるのは『必然的な』出来事で、ReLUとはそれほど関係ありません。
-なので、NNの層数が多いほど前端の勾配値は0か天文数値かのような極端な値になりがちです。
+なので、NNの層数が多いほどfeedbackしてきた前端への~~勾配~~☞誤差値は0か天文数値かのような極端な値になりがちです。
 これは掛け算の性質によります。
-つまり、**ReLU**にしても, **sigmoid**にしても、NNの層数が多くなると、前端の勾配値0と天文数値の間で大きく振れることは
+つまり、**ReLU**にしても, **sigmoid**にしても、NNの層数が多くなると、前端へfeedbackされてきた~~勾配~~☞誤差値0と天文数値の間で大きく振れることは
 オリジナルタイプのDNNに限り、原理的に避けられません。
-**ReLU**でなくて、**ReNET** 等は "本当のソリューション"かもしれません。
+**ReLU**でなくて、**ResNet** 等は "本当のソリューション"かもしれません。
-【ただ、偶然にも、沢山のWの値と沢山のΣの値うまく組み合わせ、その積は極端的な値にならなかった場合もありましょう。】
+【ただ、偶然にも、沢山のWの値と沢山のσの値うまく組み合わせ、その積は極端的な値にならなかった場合もありましょう。】

修正

2018/04/13 12:58

投稿

oookabe

スコア126

answer CHANGED Viewed

@@ -27,9 +27,8 @@
 なので、NNの層数が多いほど前端の勾配値は0か天文数値かのような極端な値になりがちです。
 これは掛け算の性質によります。
-当然沢山のWと沢山のΣの積は偶然的にも極端的な値にならなかった場合もあります。
-**ReLU**にしても, **sigmoid**にしても、NNの層数が多くなると、前端の勾配値0と天文数値の間で大きく振れることは
+つまり、**ReLU**にしても, **sigmoid**にしても、NNの層数が多くなると、前端の勾配値0と天文数値の間で大きく振れることは
 オリジナルタイプのDNNに限り、原理的に避けられません。
+**ReLU**でなくて、**ReNET** 等は "本当のソリューション"かもしれません。
-ReULでなくて、ReNET 等は本当のソリューションかもしれません。
+【ただ、偶然にも、沢山のWの値と沢山のΣの値うまく組み合わせ、その積は極端的な値にならなかった場合もありましょう。】

追加

2018/04/13 04:03

投稿

oookabe

スコア126

answer CHANGED Viewed

@@ -20,4 +20,16 @@
 **case 3:** σ>=1の場合、 w同士がほとんど1以上の場合(例えば w=10)、
 すると、10層があれば　W[1]*w[2]*...*w[10] = 10*10*10.... = 10^10 order ⇒『勾配爆発』問題発生。
-ましてや100層であれば、前端の勾配値が10^100 order になり、天文数値ですよね ⇒『宇宙爆発』
+ましてや100層であれば、前端の勾配値が10^100 order になり、天文数値ですよね ⇒『宇宙爆発』
+ReLUの導関数値は1であっても、そしてNNのweightに正則化をかけても、weightの値は皆1以下でなければ、
+沢山の積算によって莫大な数値になるのは『必然的な』出来事で、ReLUとはそれほど関係ありません。
+なので、NNの層数が多いほど前端の勾配値は0か天文数値かのような極端な値になりがちです。
+これは掛け算の性質によります。
+当然沢山のWと沢山のΣの積は偶然的にも極端的な値にならなかった場合もあります。
+**ReLU**にしても, **sigmoid**にしても、NNの層数が多くなると、前端の勾配値0と天文数値の間で大きく振れることは
+オリジナルタイプのDNNに限り、原理的に避けられません。
+ReULでなくて、ReNET 等は本当のソリューションかもしれません。