Pytorchでの.gradが常に0になる理由

#前提
Pytorchを用いたマルウェア検知のためのDeep Learningのモデルを作成しています．
その際にバイト列をそのままでは扱えないため，nn.Embeddingを用いて8次元にembeddingしています．
そしてそのembeddingしたバイト列をモデルに突っ込んで判定しているのですが，その際に.gradにアクセスすると存在はしているのですが，値が全て0になってしまいます．
これはどういうことなのでしょうか？

#####前処理

python
1BINARY = b'MZ\x90\x00\x03\x00\x00\x00\x04\x00'
2tensor_bytes = torch.from_numpy(np.frombuffer(BINARY,dtype=np.uint8)[np.newaxis,:]).float()
3>>tensor([[ 77.,  90., 144.,  ...,  51.,   5.,  13.]])
4
5embd_func = nn.Embedding(257, 8, padding_idx=0)
6embd_bytes = embd_func(tensor_bytes) #torch.Size([1, 1054208, 8])
7>>tensor([[[ 0.7340,  1.1138,  0.8525,  ..., -1.7343, -0.1635,  0.5149], 
8         [-0.1660,  1.3984, -0.5087,  ..., -0.8441, -0.0746, -0.3979],
9         ...
10         [ 0.7354,  0.7951, -2.0175,  ..., -1.3213, -0.3241,  0.2827],
11         [-1.5834,  0.4888,  0.3841,  ...,  1.2205,  1.2348,  2.0523]]])

#####gradientの取得を行うコード

python
1
2embd_bytez.requires_grad = True
3#modelに通して結果を出力
4out = model(embd_bytez)
5>>tensor([[-0.7082,  1.3883]], grad_fn=<AddmmBackward>)
6
7result = F.softmax(out, dim=1)
8>>tensor([[0.1094, 0.8906]], grad_fn=<SoftmaxBackward>)
9
10label = torch.from_numpy(np.array([0]))
11loss = criterion(result, label)
12>>tensor(1.1581, grad_fn=<NllLossBackward>)
13
14loss.backward()
15opt.step()
16
17grad = embd_bytez.grad
18>>tensor([[[0., 0., 0.,  ..., 0., 0., 0.],
19           [0., 0., 0.,  ..., 0., 0., 0.],
20           ...
21           [0., 0., 0.,  ..., 0., 0., 0.],
22           [0., 0., 0.,  ..., 0., 0., 0.]]]) #常に値が0