回答編集履歴
1
ミスってたので消す
answer
CHANGED
@@ -6,20 +6,4 @@
|
|
6
6
|
|
7
7
|
よって、∂E/∂wi = ∂E/∂y ・ ∂y/∂z ・ ∂z/∂wi = -(1-y)xi
|
8
8
|
|
9
|
-
y=1が誤差最小であり、そのときちゃんと∂E/∂wi=0です。教師ラベル=0の項を足したりマルチラベルにしたりしても(その場合はsigmoidの一般化のsoftmaxでやってください)基本的には同じです。
|
9
|
+
y=1が誤差最小であり、そのときちゃんと∂E/∂wi=0です。教師ラベル=0の項を足したりマルチラベルにしたりしても(その場合はsigmoidの一般化のsoftmaxでやってください)基本的には同じです。
|
10
|
-
|
11
|
-
> 重みを変数として見た場合2次関数のように下向きに凸の形を取らず、「極小値をとる点で傾きが0になる」という考えを当てはめることはできないように思えます。
|
12
|
-
|
13
|
-
負の側の項も考慮して、正解はytと書くことにすると、
|
14
|
-
|
15
|
-
E=−yt log y − (1−yt)log(1−y)
|
16
|
-
|
17
|
-
で、微分して、
|
18
|
-
|
19
|
-
∂E/∂y = - yt/y - (1-yt)/(1-y)
|
20
|
-
|
21
|
-
上と同様にやって、
|
22
|
-
|
23
|
-
∂E/∂wi = ((-yt(1-y) -y(1-yt))xi = (-y + 2 * y * yt - yt)xi = -(sqrt(y) - sqrt(yt))^2 * xi
|
24
|
-
|
25
|
-
である、という事実はあったりはするんじゃないでしょうか。
|