mini batchでNNのparametersを更新する仕組み

自分が深層学習の理論勉強段階にあって、実装に関してはまったく”文明未開”の状態で鬱陶しい毎日。
例えば、
mini batchでNNのparametersを更新するには２種類の方式：mini batch単位で目標関数の【誤差の累積】を取るか、各NNのparamterが各サンプルデータ毎の目標関数の誤差に対する【gradientの累積】を取るか
のいずれかで実現できると思いますが、

実際どの方式で実現されるのでしょうか。

具体に
方式１．
訓練目標関数の誤差をmini batchで累算して、累算した目標関数の誤差に対して~~optimizer.backward() callか,　model.backward() callによって~~【💛注】,　　loss.backward() callによってNNの各parameterのgradientが算出され、NNの各parameterのgrad 変数に【加算せず】セットされる。

💛注：NN　model　自体がNN　parametersを保持しているはずだし、optimizer.step()の実行によって全NN parametersの更新もできるので、optimizerを通してもNN parametersのgradient値の更新もできるはずだが、やはりloss関数情報を持たないと行けないので、loss classでNN parametersのgradientを更新するのは自然。

方式２．
mini batchの個々サンプルデータに関する訓練目標関数の誤差を算出して（累算せず）、loss.backward() callでNNの各parameterに対するgradientを計算し、NNの各parameterのgrad 変数に【加算】する。

＝＝＝＝＝＝＝＝＝＝＝＝＝

上記処理の後、optimizer.step() で、(mini batch単位での)一括更新が実行される。

さて、果たして実際はどの方式でしょうか。
この辺明るい方ご説明お願い致します。

insecticide

2022/04/10 03:55 編集

１．Tensor classが持っている能力を生かして、batch(tensor object)単位でDNNに入力し処理可能なので、batch単位で目的関数のlossの累積値の算出も容易である。２．DNNのparameterもTensorだけど、batchの形状(dim)とは関係ないし、どうせ、先にlossを算出してからDNNのparameterのgradientを算出しなければならないので、batch単位で目的関数のlossの累積値を用いてDNNの各parameterのgradientを計算すれば、自然にbatch毎の『累積的な』gradient値になる。さようなら、loss.backward()のgradient累積機能はまったく余計だし、そのせいで、毎回、loss.backward()を実行する直前にmodel.zero_grad()を実行しなければならないのは愚か❣