勾配の初期化の必要性を教えて下さい。

TensorFlow や、PyTorch、Chainerなどのフレームワークで、optimizer を zero_grad() などのメソッドで初期化しますが、初期化しないと、具体的にどうなるのでしょうか。
重み更新のときに使った勾配の変数(deltaW)は、逆伝播での計算結果で上書きされるので、どうして毎回初期化しなければいけないのかわかりません。この意味、よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

初期化しないと、具体的にどうなるのでしょうか。

勾配法は適当な初期点を決めて、そこから関数が減少する方向に少しずつ点を動かして関数の極小値を探す方法です。

なので、「optimizer を zero_grad() などのメソッドで初期化」というのはスタートする点を決めることを意味します。
初期化しないことには勾配法は実行できません。

数学 - 勾配法について可視化して理解する。

投稿2019/08/31 16:25

tiitoi

総合スコア21962

teefpc

2019/09/01 02:32

勾配の初期化は、学習の一番最初に行うものと思っていましたが、フレームワークを見ると、１バッチごとに（誤差を逆伝播する度に）、勾配を初期化しているように見えます。この理解は正しいですか？

teefpc

2019/09/01 02:57

もしかして私は、勾配と勾配更新パラーメータを混同しているのでしょうか？

tiitoi

2019/09/01 05:01

> 学習の一番最初に行うもの「勾配の初期化」ではなく、「重みの初期化」です。重みの初期化は一番最初に行うという認識であってます。 > フレームワークを見ると、１バッチごとに（誤差を逆伝播する度に）、勾配を初期化しているコードがないのでわかりませんが、なにか他の処理を勾配の初期化と勘違いされている可能性があります。

teefpc

2019/09/01 05:28

ありがとうございました。

行動規範の内容に同意します