Google Colaboratory上で大量のファイルを参照（open(), .read）しようとすると、動かなくなります

前提・実現したいこと

Google Colaboratory上でpythonによる深層学習のコードを書いています。肯定的、否定的という二値のラベルが付いた映画レビューをリストにまとめるコードです。

具体的に言うと、IMDb(Internet Movie Database)データをテキストとしてダウンロードして展開し、個々の映画レビューを文字列のリスト(texts)にまとめ、映画レビューのラベル（肯定的、否定的）をlabelsリストにまとめます。

しかし、参考書に書いてある通りにコードを実行するのですが、エラーが出るか、実行中状態が続き、完了しません。同じ操作を何度か実行するのですが、完了はしません。コードをどう改造すれば良いですか？

恐らく参照するファイルが25000個(1フォルダに12500個。それが２フォルダあります）あり、数が膨大なためだと思います。GoogleColaboratoryのよくある質問に「Google ドライブのオペレーションは、フォルダ内のファイル数やサブフォルダ数が増えすぎるとタイムアウトすることがあります。」と書いてありました。

しかし今後、大量のファイルを使った深層学習をGoogle Colaboratory上で行いたいと考えています。研究や業務でGoogle Colaboratryを使い、大量のファイルを操作している人もいるはずです。どうすれば、それが可能になるか教えてください。

発生している問題・エラーメッセージ

エラーの場合、以下のような文言が出ます。

OSError: [Errno 5] Input/output error: 'drive/My Drive/Colab Notebooks/aclImdb/train/neg/' site:stackoverflow.com

該当のソースコード

python
1from google.colab import drive
2drive.mount('/content/drive')
3
4import os
5
6imdb_dir = 'drive/My Drive/Colab Notebooks/aclImdb'
7train_dir = os.path.join(imdb_dir, 'train')
8
9labels = []
10texts = []
11
12for label_type in ['neg', 'pos']:
13    dir_name = os.path.join(train_dir, label_type)
14    for fname in os.listdir(dir_name):
15        if fname[-4:] == '.txt':
16            f = open(os.path.join(dir_name, fname))
17            texts.append(f.read())
18            f.close()
19            if label_type == 'neg':
20                labels.append(0)
21            else:
22                labels.append(1)

試したこと

■「よくある質問」に以下のことが書いていました。（https://research.google.com/colaboratory/faq.html#drive-timeout）
Google ドライブのオペレーションは、フォルダ内のファイル数やサブフォルダ数が増えすぎるとタイムアウトすることがあります。数千件ものアイテムが最上位の「マイドライブ」フォルダの直下にあると、ドライブのマウント処理がタイムアウトする可能性が高くなります。

そこで、最上位のマイドライブフォルダ直下には計１０個のフォルダとファイルしか置いていません。その状態でコードを実行しましたが、症状は改善されませんでした。

■一気に12500ファイルに順番にアクセスするコードが駄目なのかと思い、ファイルを１個ずつの束にして、１束ずつアクセスするように、コードを下記のように書き直しました。しかし、失敗しました。

ただし、１フォルダ当たりの中身をファイル500個に減らして（つまり２フォルダでファイル1000個）、下記のコードを実行すると成功しました。（ちなみに、最初に書いたコードを実行すると失敗。つまり、１個ずつの束にすることに、意味はあったのかなと考えています）

python
1from google.colab import drive
2drive.mount('/content/drive')
3
4import os
5import math
6
7def split_list(l, n):
8    for idx in range(0, len(l), n): 
9        yield l[idx:idx + n]
10
11imdb_dir = 'drive/My Drive/Colab Notebooks/aclImdb'
12train_dir = os.path.join(imdb_dir, 'train')
13
14labels = []
15texts = []
16dir_name = []
17result = []
18
19for label_type in ['neg', 'pos']:
20    dir_name = os.path.join(train_dir, label_type)
21    #dir_nameを1fileずつのbatchに加工します
22    result = list(split_list(os.listdir(dir_name), 1))
23    for x in result:
24        for fname in x:
25            # print(fname)
26            if fname[-4:] == '.txt':
27                f = open(os.path.join(dir_name, fname))
28                texts.append(f.read())
29                f.close()
30                if label_type == 'neg':
31                    labels.append(0)
32                else:
33                    labels.append(1)

補足情報（FW/ツールのバージョンなど）

参考書は『PythonとKerasによるディープラーニング』。コードは下記URLのIn [6]です。タイトルは「Download the IMDB data as raw text」

https://github.com/fchollet/deep-learning-with-python-notebooks/blob/master/6.1-using-word-embeddings.ipynb

行動規範の内容に同意します

回答2件

自己解決

以下の手順で自己解決しました。
１．GoogleColab上ではなく、ローカルのパソコン上でPythonを使い、IMDbデータをhdf5に保存する
２．１のhdf5ファイルをGoogleDriveにアップロードする
３．２のhdf5ファイルをPythonを使い、リストに格納する

各サイトで見つけたコードをつぎはぎしたので、汚いかもしれませんが、コードを以下に記します

１．IMDbデータをhdf5に保存する

Python
1import os
2import h5py
3
4# ●にIMDbのフォルダがあるパスを入力します
5# 私はWindows8でjupyter labを使っています。パス名を要素に分割するためにオペレーティングシステムで
6# 利用されている文字、Windowsでは '\'があります。それをos.sepを使い'/'に置き換えます。
7imdb_dir = '●'.replace('/', os.sep) 
8train_dir = os.path.join(imdb_dir, 'train')
9
10labels = []
11texts = []
12
13for label_type in ['neg', 'pos']:
14    dir_name = os.path.join(train_dir, label_type)
15    for fname in os.listdir(dir_name):
16        if fname[-4:] == '.txt':
17            
18            # 私のPCでは読み込みテキストをutf-8_sigにしないと作動しません。
19            f = open(os.path.join(dir_name, fname),encoding="utf-8_sig")
20            texts.append(f.read())
21            f.close()
22            if label_type == 'neg':
23                labels.append(0)
24            else:
25                labels.append(1)
26            # 25000個のファイルの処理が約７分で完了しました。
27
28# texts listをasciiでエンコードしてリストに代入すると成功します
29# textsをutf-8でエンコードした場合は失敗しました。h5pyはasciiを基本のencodeと考えているのでし
30# ょうか
31asciitexts = [n.encode("ascii", "ignore") for n in texts]
32output_file = "imdb.h5"
33with h5py.File(output_file, 'w') as f:
34
35    f.create_dataset('labels', data=labels)
36    f.create_dataset('texts', data=asciitexts) 
37　　# 約１０秒で処理が完了しました。

２．hdf5ファイルをPythonを使い、リストに格納する

Python
1import h5py
2# ●にimdb.h5のパスを入力します
3with h5py.File("●", "r") as f:
4    h5_labels = f["labels"][()] #[()]は.valueの代わり
5    h5_texts = f["texts"][()]
6
7labels = h5_labels.tolist()
8texts = h5_texts.tolist()
9texts = [n.decode('utf-8') for n in texts]  # utf-8でtextsリストをデコード。

投稿2019/04/04 17:40

magi201903

総合スコア29

IMDb の展開を Googleドライブの方でせずに、Googleドライブの方は1個のgzファイルのままにしておいて、Google Colaboratoryの方にそのファイルをコピーしてから展開したらどうですか。ローカルのディスクであれば、25000個のファイルがあっても何の問題もなく処理できます。

投稿2019/04/04 00:14