python メモリが足りないときの対処法(メモリのようにSSDを使いたい)

python上でビッグデータ（といえるかはわからないけど）を使い機械学習をしていたのですが
メモリーが足りず途中で止まってしまいます
pytochを使っています
思いついたもの　データの圧縮　ssdで保存など
データはメモリで保存（x.to("cpu"))
モデルはGPUで動かしています（x.to("cuda"))

調べても違う物しか出てこず困ってます
メモリ周りの知識がないためどうすればいいか全くわかりません
なにかいい方法はありませんか？
いちよ問題のデータ周りのコード

class Memory:#memory__
    def __init__(self, max_size=1000):
        self.buffer = [deque() for _ in range(5)]#データを入れる配列を定義
        self.max_size=(max_size*main.R2D2trin)+main.multireward_steps+main.R2D2trin
        self.recarent_memory=deque([[] for _ in range(5)])
    def cat_buffer(self):#増えすぎた分の削除
        if self.max_size < len(self.buffer[4]):
            while self.max_size < len(self.buffer[4]):
                self.buffer[0].popleft()
                self.buffer[1].popleft()
                self.buffer[2].popleft()
                self.buffer[3].popleft()
                self.buffer[4].popleft()
    def add(self, experience):#データの追加
        for _,i in enumerate(experience):
            self.buffer[_].append(i)

エラーメッセージ

RuntimeError                              Traceback (most recent call last)
<ipython-input-1-6f011859a521> in <module>
    826                                                             state_size=state_,action_size=acthon,
    827                                                          multireward_steps=main.multireward_steps,
--> 828                                                          tau=tau,mord_update=main.mord_update,kappa=main.kappa)
    829         memory.cat_buffer()
    830         memory_TDerror.cat_buffer()

<ipython-input-1-6f011859a521> in Double_R2D2_IQN_pioritized_Nstep_NAF_replay(self, batch_size, gamma, step, state_size, action_size, multireward_steps, tau, mord_update, kappa)
    441         #mini_batch
    442         hidden,hidden_next,inputs,nexts,rewards=self.R2D2_get(idx_deta,multireward_steps,
--> 443                                                               batch_size,age_idx)
    444 
    445         taua=torch.randn(main.R2D2trin*batch_size,self.IQN_D,device ="cuda:0")

<ipython-input-1-6f011859a521> in R2D2_get(self, idx, multireward_steps, batch_size, age_idx)
    531         inputs=[torch.cat(steta).view(self.R2D2trin,batch_size,3,128,128),#
    532                 torch.cat(action).view(self.R2D2trin,batch_size,1,-1)]#
--> 533         nexts=torch.cat(nexts).view(self.R2D2trin,batch_size,3,128,128)#
    534         rewards=torch.cat(rewards).view(self.R2D2trin,batch_size,1,-1)#
    535         with torch.no_grad():

RuntimeError: [enforce fail at ..\c10\core\CPUAllocator.cpp:72] data. DefaultCPUAllocator: not enough memory: you tried to allocate 78643200 bytes. Buy new RAM!

meg_

2020/10/28 10:42

> python上でビッグデータ（といえるかはわからないけど）を使いデータサイズとマシンスペックは何ですか？

Flan.

2020/10/29 04:12

データサイズは3200,3,128,128 GPuはrtx2080ti

行動規範の内容に同意します

回答2件

巨大な学習データを利用する機械学習において、対応方針は以下です。

(1) 学習を小規模のバッチに分割し、バッチごとに、データ前処理〜学習済モデルのロード〜学習〜モデルのセーブ、を繰り返す。最終的に出来上がったモデルで推論を行う。

(2) 学習データを分割し、個々に学習させてモデルをそれぞれ構築する。推論時に各モデルの結果をアンサンブルする。

上記で(1)は単純ですが、時間がかかります。(2)は分散学習により高速化が可能です。
複雑な場合は、KubernetesのKubeflow Pipelinesを活用して(1)(2)をパイプラインマネジメントすることも考えられます。それを実装したPaaSが、Amazon AWS SageMakerです。

今回の質問者様のケースでは、まずはメモリに収まるバッチサイズをもとに、(1)をやってみるとよいでしょう。

投稿2020/10/28 11:22

toast-uz

総合スコア3266

Flan.

2020/10/29 04:26 編集

説明不足だったかもしれませんすみません　私がやっている学習方法は強化学習です tensor型の行列を毎回add(self, experience)しているのでssdではなくメモリに保存されている(間違っているかもしれません）だからメモリ以外のところで保存すれば　と思ったのですが

Flan.

2020/10/29 04:23

モデルにはgpuを使っているためバッチサイズでエラーが出ることはありません　20エピソードぐらいでエラーが出てますのでデータ自体の保存方法が問題です　記載漏れですねすいません

行動規範の内容に同意します

自己解決

HDF5 という物が見つかりました

投稿2020/11/01 10:58

Flan.

総合スコア123

toast-uz

2020/11/01 11:15

hdf5で、途中の学習結果を保存する、ということでしょうか？私の回答と何が違うのか、参考のために教えてください。なお、私の回答で「バッチ」と言っているのは、学習方法のバッチではなく、汎用的な「全体の学習の一部」というくらいの意味です。

Flan.

2020/11/01 11:20

hdf5でメモリに入りきらないデータを保存します　強化学習をご存じでしょうか？強化学習の性質上学習用データはメモリに保存されますバッチは深層学習のバッチサイズだと思って返信しました

toast-uz

2020/11/01 11:23

学習というジョブのバッチを小さくする、という意味では合っていたという理解でよいでしょうか？

Flan.

2020/11/01 11:26

学習とはディープラーニングのことです　バッチサイズは変わらないです

toast-uz

2020/11/01 11:51 編集

用語が合っていなくて申し訳ありません。バッチを小さくする、を、一度に処理するエピソード数を小さくして、と読み替えていただくと、合っていますでしょうか？強化学習はよく知りませんが、「途中でモデルをセーブする」という基本的な考え方は合っていたのか、それとも異なるやり方で解決されているのかを、参考までに確認したいです。

Flan.

2020/11/01 12:01

モデルのセーブは関係ありません強化学習では普通にやっていたらデータセットがメモリに保存されますなのでメモリの容量を超えてエラーが出てましたなので通常のデータセットのようにSSDでデータセットを保存する方法を探していました

toast-uz

2020/11/01 12:11

「途中状態をセーブする」という考え方では無いのですね。何かメモリとディスク両方を使いつつ、学習を続けるようなしくみがあるのだと想像しましたが、これ以上お聞きするのは失礼かと思います。強化学習を勉強しておきたいと思います。ありがとうございました。

行動規範の内容に同意します

あなたの回答