質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

Google Colaboratory

Google Colaboratoryとは、無償のJupyterノートブック環境。教育や研究機関の機械学習の普及のためのGoogleの研究プロジェクトです。PythonやNumpyといった機械学習で要する大方の環境がすでに構築されており、コードの記述・実行、解析の保存・共有などが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

解決済

Google Colaboratory上で大量のファイルを参照(open(), .read)しようとすると、動かなくなります

magi201903
magi201903

総合スコア0

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

Google Colaboratory

Google Colaboratoryとは、無償のJupyterノートブック環境。教育や研究機関の機械学習の普及のためのGoogleの研究プロジェクトです。PythonやNumpyといった機械学習で要する大方の環境がすでに構築されており、コードの記述・実行、解析の保存・共有などが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

2回答

1評価

2クリップ

103閲覧

投稿2019/04/01 16:25

編集2022/01/12 10:58

前提・実現したいこと

Google Colaboratory上でpythonによる深層学習のコードを書いています。肯定的、否定的という二値のラベルが付いた映画レビューをリストにまとめるコードです。

具体的に言うと、IMDb(Internet Movie Database)データをテキストとしてダウンロードして展開し、個々の映画レビューを文字列のリスト(texts)にまとめ、映画レビューのラベル(肯定的、否定的)をlabelsリストにまとめます。

しかし、参考書に書いてある通りにコードを実行するのですが、エラーが出るか、実行中状態が続き、完了しません。同じ操作を何度か実行するのですが、完了はしません。コードをどう改造すれば良いですか?

恐らく参照するファイルが25000個(1フォルダに12500個。それが2フォルダあります)あり、数が膨大なためだと思います。GoogleColaboratoryのよくある質問に「Google ドライブのオペレーションは、フォルダ内のファイル数やサブフォルダ数が増えすぎるとタイムアウトすることがあります。」と書いてありました。

しかし今後、大量のファイルを使った深層学習をGoogle Colaboratory上で行いたいと考えています。研究や業務でGoogle Colaboratryを使い、大量のファイルを操作している人もいるはずです。どうすれば、それが可能になるか教えてください。

発生している問題・エラーメッセージ

エラーの場合、以下のような文言が出ます。

OSError: [Errno 5] Input/output error: 'drive/My Drive/Colab Notebooks/aclImdb/train/neg/' site:stackoverflow.com

該当のソースコード

python

from google.colab import drive drive.mount('/content/drive') import os imdb_dir = 'drive/My Drive/Colab Notebooks/aclImdb' train_dir = os.path.join(imdb_dir, 'train') labels = [] texts = [] for label_type in ['neg', 'pos']: dir_name = os.path.join(train_dir, label_type) for fname in os.listdir(dir_name): if fname[-4:] == '.txt': f = open(os.path.join(dir_name, fname)) texts.append(f.read()) f.close() if label_type == 'neg': labels.append(0) else: labels.append(1)

試したこと

■「よくある質問」に以下のことが書いていました。(https://research.google.com/colaboratory/faq.html#drive-timeout)
Google ドライブのオペレーションは、フォルダ内のファイル数やサブフォルダ数が増えすぎるとタイムアウトすることがあります。数千件ものアイテムが最上位の「マイドライブ」フォルダの直下にあると、ドライブのマウント処理がタイムアウトする可能性が高くなります。

そこで、最上位のマイドライブフォルダ直下には計10個のフォルダとファイルしか置いていません。その状態でコードを実行しましたが、症状は改善されませんでした。

■一気に12500ファイルに順番にアクセスするコードが駄目なのかと思い、ファイルを100個ずつの束にして、1束ずつアクセスするように、コードを下記のように書き直しました。しかし、失敗しました。

ただし、1フォルダ当たりの中身をファイル500個に減らして(つまり2フォルダでファイル1000個)、下記のコードを実行すると成功しました。(ちなみに、最初に書いたコードを実行すると失敗。つまり、100個ずつの束にすることに、意味はあったのかなと考えています)

python

from google.colab import drive drive.mount('/content/drive') import os import math def split_list(l, n): for idx in range(0, len(l), n): yield l[idx:idx + n] imdb_dir = 'drive/My Drive/Colab Notebooks/aclImdb' train_dir = os.path.join(imdb_dir, 'train') labels = [] texts = [] dir_name = [] result = [] for label_type in ['neg', 'pos']: dir_name = os.path.join(train_dir, label_type) #dir_nameを100fileずつのbatchに加工します result = list(split_list(os.listdir(dir_name), 1)) for x in result: for fname in x: # print(fname) if fname[-4:] == '.txt': f = open(os.path.join(dir_name, fname)) texts.append(f.read()) f.close() if label_type == 'neg': labels.append(0) else: labels.append(1)

補足情報(FW/ツールのバージョンなど)

参考書は『PythonとKerasによるディープラーニング』。コードは下記URLのIn [6]です。タイトルは「Download the IMDB data as raw text」

https://github.com/fchollet/deep-learning-with-python-notebooks/blob/master/6.1-using-word-embeddings.ipynb

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

Google Colaboratory

Google Colaboratoryとは、無償のJupyterノートブック環境。教育や研究機関の機械学習の普及のためのGoogleの研究プロジェクトです。PythonやNumpyといった機械学習で要する大方の環境がすでに構築されており、コードの記述・実行、解析の保存・共有などが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。