編集履歴

回答編集履歴

修正

2020/06/11 09:05

投稿

スコア21960

answer CHANGED Viewed

@@ -46,9 +46,9 @@
 となります。なので、
-正解が0なのに予測が1と誤識別したら
+正解が-1なのに予測が1と誤識別したら
 → self.w_[1:] = self.w_[1:] - self.eta * 2 * xi と更新
-正解が1なのに予測が0と誤識別したら
+正解が1なのに予測が-1と誤識別したら
 → self.w_[1:] = self.w_[1:] + self.eta * 2 * xi
 正解と予測が一致したら
 → self.w_[1:] = self.w_[1:] + 0 * xi = self.w_[1:] (つまり、更新しないのと同じ)

修正

2020/06/11 09:05

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -39,17 +39,17 @@
 self.w_[1:] += update * xi
 → self.w_[1:] += self.eta * (target - self.predict(xi)) * xi
-ここで、self.eta * (target - self.predict(xi)) について考えると、ラベルが0, 1 の2クラスなら
+ここで、self.eta * (target - self.predict(xi)) について考えると、ラベルが-1, 1 の2クラスなら
-target = 0, self.predict(xi) = 1 なら self.eta * (0 - 1) = -self.eta
+target = -1, self.predict(xi) = 1 なら self.eta * (-1 - 1) = -2 self.eta
-target = 1, self.predict(xi) = 0 なら self.eta * (1 - 0) = self.eta
+target = 1, self.predict(xi) = -1 なら self.eta * (1 - (-1)) = 2 self.eta
 target == self.predict(xi) なら0
 となります。なので、
 正解が0なのに予測が1と誤識別したら
-→ self.w_[1:] = self.w_[1:] - self.eta * xi と更新
+→ self.w_[1:] = self.w_[1:] - self.eta * 2 * xi と更新
 正解が1なのに予測が0と誤識別したら
-→ self.w_[1:] = self.w_[1:] + self.eta * xi
+→ self.w_[1:] = self.w_[1:] + self.eta * 2 * xi
 正解と予測が一致したら
 → self.w_[1:] = self.w_[1:] + 0 * xi = self.w_[1:] (つまり、更新しないのと同じ)

修正

2020/06/11 09:04

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -53,7 +53,4 @@
 正解と予測が一致したら
 → self.w_[1:] = self.w_[1:] + 0 * xi = self.w_[1:] (つまり、更新しないのと同じ)
-となっています。
+となっています。
-w_new = update  (target - self.predict(xi))

修正

2020/06/11 08:52

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -26,4 +26,34 @@
 ----
-これで1つのサンプルを正しく識別できるように分類超平面を調整したら、今まで正しく識別できていた他のサンプルが逆に誤識別するようになり、全部のサンプルを正しく識別できる重みが見つからないのではないかと心配になるかもしれませんが、線形識別可能 (超平面で2つのクラスのサンプルが完全に分離可能) なデータの場合、有限回の反復で収束する (すべてのサンプルを正しく識別できるようになる) ことが数学的に証明できます。
+これで1つのサンプルを正しく識別できるように分類超平面を調整したら、今まで正しく識別できていた他のサンプルが逆に誤識別するようになり、全部のサンプルを正しく識別できる重みが見つからないのではないかと心配になるかもしれませんが、線形識別可能 (超平面で2つのクラスのサンプルが完全に分離可能) なデータの場合、有限回の反復で収束する (すべてのサンプルを正しく識別できるようになる) ことが数学的に証明できます。
+## 追記
+> 質問のように、本のコードは```self.w_[1:] += update * xi```となっています。（誤植ではないと思います）
+これでよい理由についてわかりませんか？
+回答では簡略化のために、学習率 self.eta = 1、バイアス self.w_[0] = 0 としましたが、「質問のコードの重み更新でやっていること」と、「上記回答のパーセプトロンの重みの更新」はやっていることは同じですよ。
+2次元データだとすると、重みは self.w_ = [b, w0, w1] とバイアス b と重み w0, w1 になりますよね。self.w_[1:] = [w0, w1] なので、
+self.w_[1:] += update * xi
+→ self.w_[1:] += self.eta * (target - self.predict(xi)) * xi
+ここで、self.eta * (target - self.predict(xi)) について考えると、ラベルが0, 1 の2クラスなら
+target = 0, self.predict(xi) = 1 なら self.eta * (0 - 1) = -self.eta
+target = 1, self.predict(xi) = 0 なら self.eta * (1 - 0) = self.eta
+target == self.predict(xi) なら0
+となります。なので、
+正解が0なのに予測が1と誤識別したら
+→ self.w_[1:] = self.w_[1:] - self.eta * xi と更新
+正解が1なのに予測が0と誤識別したら
+→ self.w_[1:] = self.w_[1:] + self.eta * xi
+正解と予測が一致したら
+→ self.w_[1:] = self.w_[1:] + 0 * xi = self.w_[1:] (つまり、更新しないのと同じ)
+となっています。
+w_new = update  (target - self.predict(xi))

修正

2020/06/11 08:52

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -26,4 +26,4 @@
 ----
-これで1つのサンプルを正しく識別できるように分類超平面を調整したら、今まで正しく識別できていた他のサンプルが逆に誤識別するようになり、全部のサンプルを正しく識別できる重みが見つからないのではないかと心配になるかもしれませんが、線形識別可能 (超平面で2つのクラスのサンプルが完全に分離可能) なデータの場合、有限回の反復で収束することが数学的に証明できます。
+これで1つのサンプルを正しく識別できるように分類超平面を調整したら、今まで正しく識別できていた他のサンプルが逆に誤識別するようになり、全部のサンプルを正しく識別できる重みが見つからないのではないかと心配になるかもしれませんが、線形識別可能 (超平面で2つのクラスのサンプルが完全に分離可能) なデータの場合、有限回の反復で収束する (すべてのサンプルを正しく識別できるようになる) ことが数学的に証明できます。

修正

2020/06/10 15:43

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -26,4 +26,4 @@
 ----
-これで1つのサンプルを正しく識別できるように分類超平面を調整したら、今まで正しく識別できていたのが逆に識別できなくなったりして、全部を正しく識別できる重みが見つからないのではないかと心配になるかもしれませんが、線形識別可能 (超平面で2つのクラスのサンプルが完全に分離可能) なデータの場合、有限回の反復で収束することが数学的に証明できます。
+これで1つのサンプルを正しく識別できるように分類超平面を調整したら、今まで正しく識別できていた他のサンプルが逆に誤識別するようになり、全部のサンプルを正しく識別できる重みが見つからないのではないかと心配になるかもしれませんが、線形識別可能 (超平面で2つのクラスのサンプルが完全に分離可能) なデータの場合、有限回の反復で収束することが数学的に証明できます。