google ColaboratoryでシステムRAMがクラッシュしないようメモリ解放したい

実現したいこと

「ランタイムを再起動」をせずに繰り返し色々なモデルを学習させたい。

前提

画像分類タスクを行いたく、google Colaboratoryにてtensorflowを使ってニューラルネットワークを実装しようとしています。
使用言語はPythonです。

コードを実行していくとシステムRAMが激しく消費され、すぐに上限の12.7GBを超えてセッションがクラッシュしてしまいます。
1回分の学習はできますが、パラメータ探索のために、「ランタイムを再起動」で毎回リセットせずとも連続の学習ができるように、メモリの節約や解放の手段が必要だと考えています。

発生している問題・エラーメッセージ

システムRAMが急激に消費されるポイントがいくつかあります。それぞれでメモリの節約や解放の方法があれば教えて頂きたいです。

①学習データをマウントしているgoogle Driveから読み込む
ここで2.8GB使っています。この学習データはnumpyのndarray配列であり予めnpz形式で保存しているものです。数千枚の130KB程度の画像が入っていてX_train.npzのサイズは400MBです。400MBの読み込みで7倍メモリを使うものなのか理解できず…。

Python
1import numpy as np
2X_train = np.load('/content/drive/MyDrive/X_train.npz')['arr_0']

②定義したモデルで学習を行う
モデルの中身で変動しますが3GB前後使います。全結合層や畳み込み層が3層くらいでパラメータのサイズは400KB～10MBです。一回の学習でこれくらい使うのはまあ良いとして、modelを再定義し最初から学習しても消費した分は戻らず増加する一方です。

Python
1epochs = 10
2batch_size = 32
3result = model.fit(tr_x,tr_y, epochs=epochs, batch_size=batch_size, validation_data=(va_x,va_y))

試したこと

②については不要になった段階でmodelやresultを削除すれば良いのでは？と思い、ネットで検索し使えそうな以下のコードを実行してみましたが、システムRAMは減りませんでした。

Python
1del model, result
2keras.backend.clear_session()
3import gc
4gc.collect()

補足情報（FW/ツールのバージョンなど）

google Colabは無料版で、ハードウェアアクセラレータはT4 GPUを選択しています。

退会済みユーザー

2023/10/19 14:51

X_train.npz は圧縮されているのではないでしょうか。だから実行時に展開されてメモリを圧迫するのだと思います。 gc（Gabage Colection)は、ローカルで実行する場合と異なり、クラウドのGoogle Colaboではgcを実行したからといって確実に開放されるとは限りません。個人的に、やりたいことがあるなら、素直にProプランに課金してメモリを積んだ方が精神衛生的によいのではないかなと思います。（「なんとかタダでメモリを節約する方法を見つけたい」という、手段と目的が逆転している状況なら何も言いませんが。。。）

退会済みユーザー

2023/10/20 09:24 編集

試したことがないので投げやりなコメントですが、コラボラトリーはスワップできるんですかね？あとは妥協してモデルを小さくするとかコンパクトなモバイルネットに頼るとか。

debon

2023/10/20 10:36

X_train.npzは圧縮されてる訳ではないようです。元のjpgファイル群が入ったフォルダのサイズも380MBでしたので。gcの事は承知しました。小さいモデルにしたり有料版にするとかはアリなんですが、簡単に数GB飛ぶ状況ではすぐ同じ問題にぶつかりそうなので、先にこの問題を解決したいと思っています。

jbpb0

2023/10/22 01:25 編集

> X_train.npzのサイズは400MB > 元のjpgファイル群が入ったフォルダのサイズも380MB jpegファイルはたいてい圧縮されてるので、npzファイルのサイズがそれに近いなら、npzファイルも圧縮されてる可能性があります > 400MBの読み込みで7倍メモリを使う X_train = np.load(... の下に下記を追加して実行したら、何て表示されますか？ print(X_train.shape) print(X_train.size) print(X_train.dtype) print(X_train.itemsize) print(X_train.nbytes) また、 X_train.nbytes (= X_train.size * X_train.itemsize) は、2.8GBに近い数値ではありませんでしょうか？

debon

2023/10/22 07:04

皆さんコメントありがとうございます。上記コードを実行したところ以下の通りでした。 (3000, 200, 200, 3) 360000000 float64 8 2880000000 これにより、X_trainが実際に2.8GB程度あるのが分かりました。①では誤りでメモリ消費が増大しているわけではないと納得しました。

退会済みユーザー

2023/10/22 09:58

古いtf（v1.4位）だと訳の分からないコードを捏ね回さないとメモリリークしてましたが、最近のTFはどうなんでしょうね。当時はメモリの最大量を縛るとかそういうパラメータを捏ね回していたいた気がします。

退会済みユーザー

2023/10/22 10:01

きようびのTFで使えそうな記事がmediumにありました。 https://medium.com/dive-into-ml-ai/dealing-with-memory-leak-issue-in-keras-model-training-e703907a6501

行動規範の内容に同意します

回答1件

自己解決

上記fourteenlengthさんのコメントの記事を参考に②について解決の見込みが立ちました。ありがとうございます。

python
1result = model.fit(tr_x,tr_y, epochs=epochs, batch_size=batch_size, validation_data=(va_x,va_y))

におけるtr_x,tr_y,va_x,va_yはX_trainから作ったnumpyのndarray配列でした。これらを

python
1tr_x = tf.convert_to_tensor(tr_x)
2tr_y = tf.convert_to_tensor(tr_y)
3va_x = tf.convert_to_tensor(va_x)
4va_y = tf.convert_to_tensor(va_y)

でtensorflowのテンソルに変換してからmodel.fit()に入力することで繰り返しmodel.fit()を実行しても際限なくメモリを消費することがなくなりました。

なお上記「試したこと」を再度試すと今回は100%ではないですがメモリがちゃんと解放されました。ただ効果が見られなかった前回との違いが分からず…。コードのシンプルさという観点からもテンソルへの変換の方で対応したいと思います。

投稿2023/10/23 13:54

debon

総合スコア2

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

実現したいこと

前提

発生している問題・エラーメッセージ

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問