確率的勾配降下法において、収束するまでパラメータを更新続けた場合

「収束する」という概念についてお教え下さい。

####【大前提】
某通信制スクールの問題です。ここで収束について言及されています。

####【1回目の更新条件】
更新条件が記載されています。

1回目の更新コードと結果

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import datasets

diabetes = datasets.load_diabetes()

df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)

#説明変数
x = pd.Series(
    [-1.0,0,2.0]
)
x.head()
#目的変数
y = pd.Series(
    [0,0.5,1.5]
)
y.head()


plt.scatter(x, y)

class StochasticGradientDescent:
  def __init__(self, eta=0.1, n_iter=10, sample_rate=0.1):
    self.eta = eta
    self.n_iter = n_iter
    self.sample_rate = sample_rate
    self.grad = np.zeros((2,))
    self.loss = np.array([])

    self.v = np.zeros((2,))

  def fit(self, X, Y, w0):
    self.w = w0
    self.min_w = w0
    n_samples = int(np.ceil(len(X)*self.sample_rate))
    min_loss = 10**18

    for _ in range(self.n_iter):
      loss = 0.5 * np.sum((Y-(self.w[1]*X + self.w[0]))**2)
      if min_loss>loss:
        min_loss = loss
        self.min_w = self.w
      self.loss = np.append(self.loss, loss)
      for i in range(len(X)):
        index = i
        batch_x = X[index]
        batch_y = Y[index]
        self.grad[0] = np.sum(self.w[0]+self.w[1]*batch_x-batch_y)
        self.grad[1] = np.sum(self.w[1]*batch_x**2+self.w[0]*batch_x-batch_x*batch_y)

        self.w -= self.eta * self.grad

        print("self.w",self.w)
        print("更新量",self.eta * self.grad)

  def predict(self, x):
    return (self.w[0] + self.w[1]*x)

  @property
  def coef_(self):
    return self.min_w[1]

  @property
  def intercept_(self):
    return self.min_w[0]

  @property
  def loss_(self):
    return self.loss


w0 = np.array([0.0,1.0])


model = StochasticGradientDescent()
model.fit(x, y, w0)

print("A: ", model.coef_)
print("B: ", model.intercept_)

loss = model.loss
plt.plot(np.arange(len(loss)), np.log10(loss))

plt.show()

self.w [0.1 0.9]
更新量 [-0.1  0.1]
self.w [0.14 0.9 ]
更新量 [-0.04  0.  ]
self.w [0.096 0.812]
更新量 [0.044 0.088]
self.w [0.1676 0.7404]
更新量 [-0.0716  0.0716]
self.w [0.20084 0.7404 ]
更新量 [-0.03324  0.     ]
self.w [0.182676 0.704072]
更新量 [0.018164 0.036328]
self.w [0.2348156 0.6519324]
更新量 [-0.0521396  0.0521396]
self.w [0.26133404 0.6519324 ]
更新量 [-0.02651844  0.        ]
self.w [0.25481416 0.63889263]
更新量 [0.00651988 0.01303977]
self.w [0.293222   0.60048478]
更新量 [-0.03840785  0.03840785]
self.w [0.3138998  0.60048478]
更新量 [-0.0206778  0.       ]
self.w [0.31241287 0.59751091]
更新量 [0.00148694 0.00297387]
self.w [0.34092267 0.56900111]
更新量 [-0.0285098  0.0285098]
self.w [0.3568304  0.56900111]
更新量 [-0.01590773  0.        ]
self.w [0.35734714 0.57003458]
更新量 [-0.00051674 -0.00103348]
self.w [0.37861589 0.54876584]
更新量 [-0.02126874  0.02126874]
self.w [0.3907543  0.54876584]
更新量 [-0.01213841  0.        ]
self.w [0.3919257  0.55110864]
更新量 [-0.0011714  -0.00234281]
self.w [0.40784399 0.53519035]
更新量 [-0.01591829  0.01591829]
self.w [0.41705959 0.53519035]
更新量 [-0.0092156  0.       ]
self.w [0.41831557 0.53770229]
更新量 [-0.00125597 -0.00251194]
self.w [0.43025424 0.52576362]
更新量 [-0.01193867  0.01193867]
self.w [0.43722881 0.52576362]
更新量 [-0.00697458  0.        ]
self.w [0.43835321 0.52801241]
更新量 [-0.00112439 -0.00224879]
self.w [0.44731913 0.51904649]
更新量 [-0.00896592  0.00896592]
self.w [0.45258722 0.51904649]
更新量 [-0.00526809  0.        ]
self.w [0.4535192  0.52091045]
更新量 [-0.00093198 -0.00186396]
self.w [0.46025832 0.51417132]
更新量 [-0.00673913  0.00673913]
self.w [0.46423249 0.51417132]
更新量 [-0.00397417  0.        ]
self.w [0.46497498 0.5156563 ]
更新量 [-0.00074249 -0.00148497]
A:  0.5156562966281931
B:  0.46497497610534505

お伺いしたい事

最終的に
A: 0.5156562966281931
B: 0.46497497610534505

という形に着地していますが、この事象を「収束した」と解釈してよろしいのでしょうか？
(答えとしては四捨五入して　a=0.5, b=0.5になる？？)

jbpb0

2021/09/25 01:51 編集

ちゃんと収束させたければ、 https://qiita.com/koshian2/items/028c457880c0ec576e27 の「回帰分析の最小二乗法」の「確率的勾配降下法（SGD）の実装」のコードの「# 収束したら（w_t+1 - w_t が十分小さくなったら）終了」みたいにしますたいてい、ピッタリ正解にはなりませんが、正解とのズレが許容できるほどに十分に小さくなればいい、とします