前提
Pytorchにて画像分類用の事前学習モデルの学習をおこなっています.
環境はDockerで構築しており,複数のPCで同じコンテナを用いて学習しています(CUDAは11.3).
発生している問題
全く同じプログラムを複数台のPCで動かしているのですが,RTX3060(VRAM=8GB)のマシンでは問題なく動くプログラムが,RTX3080Ti(VRAM=12GB)のマシンではメモリ不足で実行に失敗します.
バッチサイズを小さくすると(256→128)一応動きますが,GPUメモリが4GBも大きい方のマシンでメモリ不足になる理由が分かりません.
タスクマネージャで監視してみるといつも5.5GB/12.0GBあたりで止まってしまっています.
原因がDockerにあるのかPytorch側にあるのか,それともそれ以外の要因があるのかご教示ください.
発生している問題・エラーメッセージ
THCudaCheck FAIL file=../aten/src/THC/THCCachingHostAllocator.cpp line=278 error=2 : out of memory ~~~ Killed
回答1件
あなたの回答
tips
プレビュー