Pytorch GPUメモリの不足分が知りたい

前提

Google Colab にて簡単なモデルを Pytorch で実装しました。
学習させてみたところ、メモリ不足でエラーとなり、下記メッセージが表示されます。

発生している問題・エラーメッセージ

CUDA out of memory. Tried to allocate 8.97 GiB (GPU 0; 14.76 GiB total capacity; 9.19 GiB already　
allocated; 4.47 GiB free; 9.20 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory 
try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and 
PYTORCH_CUDA_ALLOC_CONF

教えていただきたいこと

1. 上記メッセージの意味

14.76 GiB の全容量の内、9.19 は既に割り当てられている、4.47 GiB はまだ空いてる。
というところは理解できるのですが、 8.97 GiB 、9.20 GiB はどういう値なのでしょうか？
( 9.20 GiB がPyTorch全体として必要？、つまり9.20-4.17=4.73が不足分？ )

2. Colab GPU の容量にズレがある理由

上記メッセージ前に!nvidia-smiで容量を調べたところ、15109 MiB=15.84 GiBと表示され、
エラーメッセージの値 (14.76 GiB) と若干差があります。
また、右上の使用容量グラフでは、RAM : xx GB / 12.68 GB と表示され、こことも差があります。
これらはそれぞれ何の値を示しているのでしょうか。

matukeso

2022/12/31 10:25

15109MiB=15109/1024GiB=14.754GiBですが、、 15.84は15109x1024x1024x1024/1e9で出ますが、あくまでGBであってGiBではありません。

jbpb0

2022/12/31 18:27

質問のタイトルの > GPUメモリの不足分が、あとどれくらいメモリーが有れば学習が可能になるか、という意味ならば、質問に記載のエラーメッセージからは分からないと思いますメモリー不足で落ちた時に確保しようとした量が > Tried to allocate 8.97 GiB だと思いますが、それが学習に必要な残り量の全てかは分かりませんもしメモリー量の余裕がもう少し多くて、それが確保できたとしても、さらにメモリーを確保しようとして、メモリー不足で落ちるかもしれません