[PyTorch] エポックが進むにつれてRAM使用率があがっていってフリーズしてしまう

背景

PyTorchベースでDeep Neural Networkを作成し，モデルの学習をしています．

学習のエポックが進むにつれてじわじわとRAM (GPUメモリではなく) 使用率があがっていき最終的にフリーズしてしまうようになってしまい困っています．

お尋ねしたいこと

このような現象が起きたときに確認すべき点があればご教示ください．
原因がわからないため，どの変数がメモリを占有していってしまっているのか調べたいのですが，良い方法があればご教示ください．

コード (pseudo)

コードの概要部分のみをpseudo code likeに記します．

python
1import torch
2from torch.utils.data import DataLoader
3from torch.optim import Adam
4from torch.cuda import amp
5import gc
6
7train_set, valid_set, test_set = load_dataset( input_file )
8
9train_loader = DataLoader( dataset=train_set, batch_size=batch_size )
10valid_loader = DataLoader( dataset=valid_set, batch_size=batch_size )
11test_loader  = DataLoader( dataset=test_set,  batch_size=batch_size )
12
13mode = MyModel( parameters )
14
15loss_criterion = torch.nn.BCEWithLogitsLoss( reduction='none' )
16oprimizer = Adam( model.parameters(), lr=..., weight_decay=... )
17stopper = EarlyStopper( parameters )
18
19model.to( 'cuda:0' )
20
21for epoch in range( n_epochs ):
22
23    train_score = train( model, train_loader, loss_criterion, optimizer )
24    valid_score = eval(  model, valid_loader )
25
26    early_stop = stopper.step( valid_score, model )
27    gc.collect()
28
29    print( train_score, valid_score )
30

学習自体は問題なく進むのですが，epochが進むにつれてじわじわとRAM使用率が上昇していってしまいます．

環境など

Ubuntu LTS 18.04
PyTorch 1.7.0
DGL 0.6

CPU Intel Core i9
RAM 32GB
GPU NVidia GeForce RTX 3070

y_waiwai

2021/07/13 08:07

コードを提示しましょう

meg_

2021/07/13 08:09

マシンスペックはどうなっていますか？

OakNot

2021/07/13 08:34

ご指摘ありがとうございます．コードについてはやや巨大なため，該当部分の偽コードを記載しました．マシンスペックについても追記いたしました．

jbpb0

2021/08/29 02:08

> GPU NVidia GeForce RTX 3070 RTX 30*は、下記の「Ampere architecture」なので、現状「CUDA 11.*」のみ対応ですが、そこは大丈夫でしょうか？ https://docs.nvidia.com/deeplearning/cudnn/support-matrix/index.html 質問の「環境など」にCUDAのバージョンが書かれてなくて不明なので、念の為に書きました