google drive内における大容量.zipファイルの解凍をしたい(kaggle)

前提・実現したいこと

8GBの.zipファイルをgoogle drive内で解凍し、そのデータをgoogle colab(pro)で読み込んで、pythonによるGPUを使ったディープラーニングの学習をしたいと考えています。

発生している問題・エラーメッセージ

現在データサイエンスコンペであるkaggleに参加していますが、参加しているコンペのデータ・モデルの特徴上、GPUを使った学習でも1エポック5時間以上かかるようなので、google colab proの登録及び、google driveの容量を100GBに拡張しました。
kaggleからAPIを用いてgoogle drive内に.zipファイルをダウンロードをするところまではうまくいったのですが、以下の3つの手法を試しても解凍がうまくいきません。
※なお自分のPCでは正常に解凍が完了することは確認しました。

試したこと

①google colabにおいて、!unzip ZIPファイルPATH -d 解凍先PATH(google drive内)を実行
→google drive内のファイルが多すぎるとのエラー（容量には80GB以上の余裕あり）

②zip extractorを使用
→何度やっても完了直前にgoogle chromeの応答がなくなる(これはintel xeon, メモリ32GBのパソコンで試してみても同様でした)

③自分のPCで解凍してからgoogle driveにコピー
→3日たった現在でも完了しない

補足

.zipファイルには、400万枚の画像と.csvが3ファイル入っています。

.zipファイルのままでも学習を行えるなど、代案があればそれでも構いません。
ご教示いただけると幸いです。

行動規範の内容に同意します

回答1件

ベストアンサー

ベストな方法かどうかわかりませんが、zipファイルを展開せずに、中身を読み込む方法です。
zipfileモジュールを使います。
https://docs.python.org/ja/3/library/zipfile.html

具体的にどういう処理をしたいかわからないので、参考までにこんな感じです。

python
1import zipfile
2import pandas as pd
3from PIL import Image
4
5with zipfile.ZipFile('data.zip', 'r') as zf:
6    with zf.open('foo/bar.csv', 'r') as f:
7        df = pd.read_csv(f)
8
9data = []
10with zipfile.ZipFile('data.zip', 'r') as zf:
11    for name in zf.namelist():
12        if 'foo' in name and name.endswith('.jpg'):
13            with zf.open(name, 'r') as f:
14                data.append(Image.open(f))