pytorchで強化学習をやってるのですが　Gradient overflowといわれ出力が nan になります

4004003の画像をインプットにしたモデルでやっているのですが
pytorchです
手法はNAFというのを使っています
環境はボール転がすやつ（箱に当たったら報酬　落ちたら罰）
入力も0から１で正規化されてます
Gradient overflow. Skipping step, loss scaler 0 reducing loss scale to 8.96831017167883e-44
と表示され
あと最初はなぜかloss scale toの値が必ずこれです（ 32768.0固定）
Gradient overflow. Skipping step, loss scaler 0 reducing loss scale to 32768.0

理由がわかりません　出力は0.0123-0.4762ぐらいと普通で（普通じゃなかったらいってください）

自分なりに考えた結果
q(s,a)-Reward+(gnmma*q(s+1,a)) の式
のところで画像があまり変わらないため値が同じになってるのが原因？
かと思うんですが　
他に（これが原因じゃね？　強化学習でcnnを使う場合こういう手法を使わなきゃいけない)みたいな感じのあったら教えてください
情報が足りなければいってください（コードをすべて乗せるのは文字数的にできません　一枚完結じゃないし）

追記
正直　原因がわからなさ過ぎてなんの情報を載せたらいいかわからない状態です　この質問がよくなくても低評価だけ付けられても直せません　低評価の原因になるようなところがあれば具体的に言ってください