質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

強化学習

強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。

データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

メモリリーク

メモリリークは、プログラムファイルがメモリの解放に失敗した時に起こります。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

4605閲覧

python メモリが足りないときの対処法(メモリのようにSSDを使いたい)

Flan.

総合スコア123

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

強化学習

強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。

データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

メモリリーク

メモリリークは、プログラムファイルがメモリの解放に失敗した時に起こります。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2020/10/28 09:53

編集2020/10/31 06:45

python上でビッグデータ(といえるかはわからないけど)を使い機械学習をしていたのですが
メモリーが足りず途中で止まってしまいます
pytochを使っています
思いついたもの データの圧縮 ssdで保存など
データはメモリで保存 (x.to("cpu"))
モデルはGPUで動かしています(x.to("cuda"))

調べても違う物しか出てこず困ってます
メモリ周りの知識がないためどうすればいいか全くわかりません
なにかいい方法はありませんか?
いちよ問題のデータ周りのコード

class Memory:#memory__ def __init__(self, max_size=1000): self.buffer = [deque() for _ in range(5)]#データを入れる配列を定義 self.max_size=(max_size*main.R2D2trin)+main.multireward_steps+main.R2D2trin self.recarent_memory=deque([[] for _ in range(5)]) def cat_buffer(self):#増えすぎた分の削除 if self.max_size < len(self.buffer[4]): while self.max_size < len(self.buffer[4]): self.buffer[0].popleft() self.buffer[1].popleft() self.buffer[2].popleft() self.buffer[3].popleft() self.buffer[4].popleft() def add(self, experience):#データの追加 for _,i in enumerate(experience): self.buffer[_].append(i)

エラーメッセージ

RuntimeError Traceback (most recent call last) <ipython-input-1-6f011859a521> in <module> 826 state_size=state_,action_size=acthon, 827 multireward_steps=main.multireward_steps, --> 828 tau=tau,mord_update=main.mord_update,kappa=main.kappa) 829 memory.cat_buffer() 830 memory_TDerror.cat_buffer() <ipython-input-1-6f011859a521> in Double_R2D2_IQN_pioritized_Nstep_NAF_replay(self, batch_size, gamma, step, state_size, action_size, multireward_steps, tau, mord_update, kappa) 441 #mini_batch 442 hidden,hidden_next,inputs,nexts,rewards=self.R2D2_get(idx_deta,multireward_steps, --> 443 batch_size,age_idx) 444 445 taua=torch.randn(main.R2D2trin*batch_size,self.IQN_D,device ="cuda:0") <ipython-input-1-6f011859a521> in R2D2_get(self, idx, multireward_steps, batch_size, age_idx) 531 inputs=[torch.cat(steta).view(self.R2D2trin,batch_size,3,128,128),# 532 torch.cat(action).view(self.R2D2trin,batch_size,1,-1)]# --> 533 nexts=torch.cat(nexts).view(self.R2D2trin,batch_size,3,128,128)# 534 rewards=torch.cat(rewards).view(self.R2D2trin,batch_size,1,-1)# 535 with torch.no_grad(): RuntimeError: [enforce fail at ..\c10\core\CPUAllocator.cpp:72] data. DefaultCPUAllocator: not enough memory: you tried to allocate 78643200 bytes. Buy new RAM!

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2020/10/28 10:42

> python上でビッグデータ(といえるかはわからないけど)を使い データサイズとマシンスペックは何ですか?
Flan.

2020/10/29 04:12

データサイズは3200,3,128,128 GPuはrtx2080ti
guest

回答2

0

巨大な学習データを利用する機械学習において、対応方針は以下です。

(1) 学習を小規模のバッチに分割し、バッチごとに、データ前処理〜学習済モデルのロード〜学習〜モデルのセーブ、を繰り返す。最終的に出来上がったモデルで推論を行う。

(2) 学習データを分割し、個々に学習させてモデルをそれぞれ構築する。推論時に各モデルの結果をアンサンブルする。

上記で(1)は単純ですが、時間がかかります。(2)は分散学習により高速化が可能です。
複雑な場合は、KubernetesのKubeflow Pipelinesを活用して(1)(2)をパイプラインマネジメントすることも考えられます。それを実装したPaaSが、Amazon AWS SageMakerです。

今回の質問者様のケースでは、まずはメモリに収まるバッチサイズをもとに、(1)をやってみるとよいでしょう。

投稿2020/10/28 11:22

toast-uz

総合スコア3266

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Flan.

2020/10/29 04:26 編集

説明不足だったかもしれませんすみません 私がやっている学習方法は強化学習です tensor型の行列を毎回add(self, experience)しているのでssdではなくメモリに保存されている(間違っているかもしれません)だからメモリ以外のところで保存すれば と思ったのですが
Flan.

2020/10/29 04:23

モデルにはgpuを使っているためバッチサイズでエラーが出ることはありません 20エピソードぐらいでエラーが出てますのでデータ自体の保存方法が問題です 記載漏れですねすいません
guest

0

自己解決

HDF5 という物が見つかりました

投稿2020/11/01 10:58

Flan.

総合スコア123

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

toast-uz

2020/11/01 11:15

hdf5で、途中の学習結果を保存する、ということでしょうか? 私の回答と何が違うのか、参考のために教えてください。 なお、私の回答で「バッチ」と言っているのは、学習方法のバッチではなく、汎用的な「全体の学習の一部」というくらいの意味です。
Flan.

2020/11/01 11:20

hdf5でメモリに入りきらないデータを保存します  強化学習をご存じでしょうか?強化学習の性質上学習用データはメモリに保存されます バッチは深層学習のバッチサイズだと思って返信しました
toast-uz

2020/11/01 11:23

学習というジョブのバッチを小さくする、という意味では合っていたという理解でよいでしょうか?
Flan.

2020/11/01 11:26

学習とはディープラーニングのことです  バッチサイズは変わらないです
toast-uz

2020/11/01 11:51 編集

用語が合っていなくて申し訳ありません。 バッチを小さくする、を、一度に処理するエピソード数を小さくして、と読み替えていただくと、合っていますでしょうか? 強化学習はよく知りませんが、「途中でモデルをセーブする」という基本的な考え方は合っていたのか、それとも異なるやり方で解決されているのかを、参考までに確認したいです。
Flan.

2020/11/01 12:01

モデルのセーブは関係ありません 強化学習では普通にやっていたらデータセットがメモリに保存されます なのでメモリの容量を超えてエラーが出てました なので通常のデータセットのようにSSDでデータセットを保存する方法を探していました
toast-uz

2020/11/01 12:11

「途中状態をセーブする」という考え方では無いのですね。何かメモリとディスク両方を使いつつ、学習を続けるようなしくみがあるのだと想像しましたが、これ以上お聞きするのは失礼かと思います。強化学習を勉強しておきたいと思います。ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問