.zero_grad()を使う場合と使わない場合？

PyTorchの.zero_grad()メソッドはどんな場合に使わなければならないのでしょうか

良く見るコードパターンとして：
self.optim.zero_grad()
loss.backward()
self.optim.step()

ところが、 .zero_grad() 抜きで下記の二行だけ実行する実例も見たことがあります。
loss.backward()
self.optim.step()

.zero_grad() 入りと.zero_grad() 抜きとは何が違うのでしょうか。

是非ご教授お願い致します

行動規範の内容に同意します

回答1件

ベストアンサー

Backpropするときにgradientがたまります。たまったgradientを消さないとそのまま残るから普段は学習loopの始まりで消します。消さないと、前のgradient情報も残ってgradientの方向が最小値へ向きません。
複数のバッチのためてからパラメータ更新をしたい場合は、loss.backward()を数回呼んでからoptim.step()を呼びます。そのあとはまたzero_grad()します。
あと、RNNを使うときにgradientをためることもあります。

zero_grad() を呼ばないとこういうふうにたまります

import torch
w = torch.rand(5)
w.requires_grad_()
print(w) 
s = w.sum() 
s.backward()
print(w.grad) # tensor([1., 1., 1., 1., 1.])
s.backward()
print(w.grad) # tensor([2., 2., 2., 2., 2.])
s.backward()
print(w.grad) # tensor([3., 3., 3., 3., 3.])
s.backward()
print(w.grad) # tensor([4., 4., 4., 4., 4.])

投稿2020/01/23 22:24

kurapan

総合スコア79

OOZAWA

2020/01/23 23:16

本当にありがとうございます！　???????????? 凄い事を知りました！　＠.backward()が(関数としての)変数＠の個々自変数に対する微分を計算するのみだと思っていましたが、『微分値の累算』をも行いますね。どうしてでしょうか。ご説明いただけませんでしょうか。

kurapan

2020/01/24 01:08

累算はRNNを学習するとき便利です。BPTT (backpropagation through time)とかに使えます。毎回zero_grad()呼ぶとgradientがたまらないし、逆に累算してほしいときは何も工夫しなくてもそのまま累算されます。だから、累算したほうが便利だと判断されてそう実装されたかもしれません。

OOZAWA

2020/01/24 03:11

kurapan様本当に有難うございました！これほど熟知される方は世の中に多くないな。。。

行動規範の内容に同意します