大量データの読み込み

前提・実現したいこと

画像処理の学習プログラムを作成しています。
今回、70万枚ほどのデータを入力データとするのですが、データ量が大きく、読み込む際に以下のプログラムを実行途中でPCが固まってしまいます。
まだ学習を行う以前の問題なのですが、この際にはどう対処すればよいでしょうか...？

該当のソースコード

Jupyternotebook
1# 入力データの読み込み
2
3# 入力画像ディレクトリのパス
4input_dir = os.path.join('fiw','fiwlist')
5# 各画像の縦横サイズ
6image_size=224
7
8print("Loading image data from [{}] ...".format(input_dir))
9
10# x: 入力画像，y: 教師ラベル
11x = None
12y = None
13x, y = load_fiw_fiwlist(input_dir, image_size)
14

出力

Loading image data from [fiw/fiwlist] ...

読み込みを行っているのですが、このまま固まってしまいます。

試したこと

バッチサイズを設定してみましたが、うまく行きません。。

補足情報（入力データのプログラム（該当ソースの前に実行））

Jupyternotebook
1# データセットの読み込み関数
2def load_fiw_fiwlist(input_dir, img_size):
3    # 画像ファイル名が記載されたファイル
4    file_list_path = os.path.join(input_dir,'data_new2','filename.txt')
5    
6    # ファイル行数取得
7    f_rows = sum([1 for _ in open('fiw/fiwlist/maisuu.txt')])
8    a=1
9
10    # 1からファイル最終行まで
11    while a<=f_rows:
12        # 指定行をファイルから改行コードを削除して取得
13        target_line = linecache.getline('fiw/fiwlist/maisuu.txt', int(a)).rstrip('\n')
14        
15        # linecacheのキャッシュクリア
16        linecache.clearcache()
17        # 各ラベルの画像数
18        label_data=int(target_line)
19        
20        x = []
21        y = []
22        label_idx=0
23        
24        
25        f = open(file_list_path, 'r', encoding='utf-8')
26        # 各画像ファイルを読み込む
27        for i, line in enumerate(f):
28            if  i > 0 and (i % label_data) == 0:
29                label_idx = label_idx + 1
30
31            filename = os.path.join(input_dir, 'data_new2', line.strip())
32            #print("Loading image No: {} Label: {}: path: [{}] ...".format(i, label_idx, filename))
33            try:
34                img =img_to_array( load_img(filename, target_size = (image_size, image_size)))
35                loader_data=DataLoader(dataset=img,batch_size=16384,shuffle=True,num_workers=4)
36                x.append(loader_data)
37                y.append(label_idx)                                        
38            except ZeroDivisionError:
39                print("ZeroDivisionError!!")
40                pass
41        a=a+1
42    return x,y

上記のデータを、「該当のソースコード」で記載した入力データ読込のところで読み込み量を制限し、入力すれば良いということでしょうか...？

ebal

2020/10/22 04:43

同じプログラムで，例えば10万程度ならば動くのでしょうか？また，該当ソースの前に実行と書かれていることからJupyterと考えていますが，いずれにせよ実行環境の記載をお願いします．

meg_

2020/10/22 04:49

マシンスペックを記載してください。

hanaaaa

2020/10/22 04:52

ご返答ありがとうございます。 500枚で仮実行した際は無事動きました。やはり、10万程度で試さなければならないでしょうか？未熟な掲載で申し訳ございません。ご指摘ありがとうございます。

ebal

2020/10/22 04:56

10万は適当な数字で，取り敢えずプログラム自体の正当性を確認する手段です．ただ，500で動いたとのことなのでおそらく全部メモリに載せるのは無理，ということなんでしょうが．モデルの更新とメモリへの画像の展開を交互に行い合計して70万目指すのが良さそうですね．

hanaaaa

2020/10/22 05:00

ありがとうございます。それは一気に実行は難しく、データを分けて行うということでしょうか...？可能であれば詳しくお伺いしたいです。

ebal

2020/10/22 05:18

メモリにデータが乗らない以上分けて，というか一部ずつで学習を行う必要があるだろうなという予想です．どんなモデルを学習しようとしているのか不明ですが，画像に対するラベル付けのモデルならおそらくは画像とラベルペアのリストをわたして学習を進めるすることでしょう．であれば部分部分で学習を進めても結果に大差は無いはずです．（一番手っ取り早いのは強い環境を用意することですが）

hanaaaa

2020/10/22 05:24

ご返答ありがとうございます。一度試させていただきます！

bsdfan

2020/10/22 06:59

全部を一度にメモリにのせようとすると、224x224の大きさの画像でRGB1バイトずつとして、単純計算で 224x224x3x700000 で、100GBをこえるメモリが必要ですね。

toast-uz

2020/10/22 15:12

既に多くの皆さんがよいアドバイスをされていますので、回答に書かずにこちらに記載します。 (1) メモリに乗る量を計算して、一度に読み込んで学習する量を制限してください。（1万枚くらい？） (2) 学習曲線を見て、もっと量を学習したほうがよいのか見極めてください。 (3) もっと学習が必要なら、セーブしたモデルをロードして、次のバッチを学習して、と繰り返してください。逆に学習曲線が収束していると、そのまま続けても無意味です。さらに、精度を高めたい場合は、もっと複雑なモデルに変えてみるとかが必要です。

hanaaaa

2020/10/26 05:05

確認が遅くなり申し訳ございません。bsdfanさん、toast-uzさんご返答ありがとうございます。 toast-uzさんに質問なのですが、一度に読み込む量は入力データを読込む際に指定するのか、そもそもプログラムにデータを入れる時点で制限するのか、どちらでしょうか...？私自身、このような大きなデータを扱うのが初めてで、ご返答の正しい理解ができておらず申し訳ございません。可能であれば回答をお伺いしたいです。

toast-uz

2020/10/26 10:54

> 一度に読み込む量は入力データを読込む際に指定するのか、そもそもプログラムにデータを入れる時点で制限するのか、どちらでしょうか...？「入力データを読み込む」と「プログラムにデータを入れる」とは同じ意味だと思うのですが、違うのでしょうか？

hanaaaa

2020/10/28 07:01

「プログラムにデータを入れる」補足データのところに記載しているプログラムの中で、画像データを読み込むという部分があるのですが、そこで読み込むファイルの中に７０万枚のデータが入っています。よって読み込むファイルを７０万枚ではなく例えばファイル①・ファイル②・・・というように１０万枚づつ分けたファイルを作成し、順に読み込むようにする「入力データを読み込む」該当のソースコードの部分の入力データを読み込むという部分で、７０万枚の画像ファイルから一度に読み込む量を制限するのかという意味合いで考えておりました。言葉足らずで申し訳ございません。。しかし、私の言葉の表し方で言うと「入力データを読み込む」の方だと皆さんのアドバイスから考えました。おかしな質問をしてしまいし失礼いたしました。。

toast-uz

2020/10/28 10:49

すみません。ご説明された区別は全く理解できなかったのですが、ご自身で納得されたのなら、よいでしょう。