質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

5843閲覧

[Python]structモジュールを利用したzipファイルの解凍

pigton

総合スコア47

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2018/09/14 06:34

前提・実現したいこと

Python: 3.6.4

公式ドキュメントの「11.3. バイナリデータレコードの操作」を学習しています。
公式:https://docs.python.jp/3/tutorial/stdlib2.html

struct.unpack(fmt, buffer)の記述の意味がよくわかりません。
検索しても欲しい情報になかなかヒットせず、お手上げです。
以下に何がわからないのか挙げておりますので、解説よろしくお願い致します。

発生している問題・エラーメッセージ

b'myfile.xlsx' 0xe4c7c4a2 7085 9753 b'' 0xc4a24d2e 464381127 639172608 Traceback (most recent call last): File "<stdin>", line 3, in <module> struct.error: unpack requires a buffer of 16 bytes

該当のソースコード

用意した'myfile.zip'にはExcelファイルが入っています。
適当に、A1セル:あいうえ, B1セル:aiueo, C1セル:12345 と記述してあります。

Python

1>>> import struct 2>>> 3>>> with open('myfile.zip', 'rb') as f: 4... data = f.read() 5... 6>>> start = 0 7>>> for i in range(3): # show the first 3 file headers 8... start += 14 9... fields = struct.unpack('<IIIHH', data[start:start+16])  # ここがよくわからない 10... crc32, comp_size, uncomp_size, filenamesize, extra_size = fields 11... 12... start += 16 13... filename = data[start:start+filenamesize] 14... start += filenamesize # ここでERROR 15... extra = data[start:start+extra_size] 16... print(filename, hex(crc32), comp_size, uncomp_size) 17... 18... start += extra_size + comp_size # skip to the next header

参考にしたURL

以下は、すべてこちらを参考にしております。
https://docs.python.jp/3/library/struct.html#struct.calcsize

わからないこと①

'<IIIHH'の'<'のサイズ「standard」とは、何を基準にスタンダードと言っているのでしょうか?

わからないこと②

IIIHH は合わせて何バイトなのでしょうか?
2+2+2+4+4 で14バイトでしょうか?

わからないこと③

unpack()の第一引数 fmt が何をしているのかわかりません。

unpack()について、
書式文字列 fmt に従って、構造体 (それと pack(fmt, ...) によって作成されるバイト列オブジェクト) のサイズを返します。

と書いてあるのですが、さっぱりです・・・。

わからないこと④

今回、struct.errorが出ていますが、このエラーについて調べてみると以下の記述がありました。

整数フォーマット ('b', 'B', 'h', 'H', 'i', 'I', 'l', 'L', 'q', 'Q') のいずれかを使って値 x をパックするとき x がフォーマットの適切な値の範囲に無い場合、 struct.error が送出されます。

つまり、'<IIIHH'バイトサイズと、data[start:start+16]の範囲のサイズがあっていないということでしょうか?
data[start:start+16]のバイト数を調べて、'<IIIHH'の部分を変更して、完全に同じサイズにしなければならないということですか?

質問が多くてすいません。回答よろしくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

理解するためのキーポイント

  • ZIPファイルフォーマット

こちら を見て、ZIPファイルのフォーマットについて理解してください。

  • C言語の構造体、エンディアン、バイトアラインメント

struct.unpack() は、C言語に出てくる構造体が関係しています。

提示されたコードについて

以下のような test ディレクトリを test.zip に圧縮して、提示されたコードを動かしました。
各テキストファイルには、test という文字列が記載されています。

test ├── test1.txt ├── test2.txt └── test3.txt

ZIPファイルのバイナリデータの先頭にヘッダーがあり、どのようなファイルを含んでいるかの情報が記載されています。
ヘッダには、以下の情報が圧縮ファイルに含まれるファイル数分繰り返されています。(ファイルには、test1.txt, test2.txt, test3.txt の他、test というディレクトリ自身も含まれます。)

ZIPファイルフォーマット より

バイト数意味
4Local file header であることを示す固定値
2ZIP のバージョン
2オプションフラグ
2ファイル圧縮に用いたアルゴリズム
2タイムスタンプ (時刻)
2タイムスタンプ (日付)
4CRC-32 の値
4圧縮後のデータ量
4圧縮前のデータ量
2file name フィールドのサイズ
2extra field フィールドのサイズ
sファイル名
s拡張データ
# encoding: utf-8 import struct with open('test.zip', 'rb') as f: data = f.read() # ファイルの中身をすべて読みだす。 start = 0 num_files = 3 # zip ファイルが含むファイルの数 for i in range(3): #「Local file header であることを示す固定値」から #「タイムスタンプ (日付)」までの14バイトをスキップ start += 14 # 「CRC-32 の値」から「extra field フィールドのサイズ」までの16バイトを解釈する。 fields = struct.unpack('<IIIHH', data[start:start + 16]) crc32, comp_size, uncomp_size, filenamesize, extra_size = fields start += 16 # 16バイト進める。 # filenamesize でファイル名の長さが何バイトかわかったので、 # 「ファイル名」を解釈する。 filename = data[start:start + filenamesize] start += filenamesize # filenamesize バイト進める。 # extra_size で拡張データの長さが何バイトかわかったので、 # 拡張データを解釈する。 extra = data[start:start + extra_size] print(filename, hex(crc32), comp_size, uncomp_size) start += extra_size + comp_size # 以上が ZIP ファイルに格納されているファイル数分繰り返される。 # 今回は3ファイルなので、for i in range(3): となっている。
filename: test/, CRC32: 0x0, comp size: 0, uncomp size: 0 filename: test/test3.txt, CRC32: 0xd87f7e0c, comp size: 4, uncomp size: 4 filename: test/test2.txt, CRC32: 0xd87f7e0c, comp size: 4, uncomp size: 4 filename: test/test1.txt, CRC32: 0xd87f7e0c, comp size: 4, uncomp size: 4

質問について

質問1

'<IIIHH'の'<'のサイズ「standard」とは、何を基準にスタンダードと言っているのでしょうか?
  • standard: サイズアラインメントを考慮する。
  • naive: サイズアラインメントを考慮しない。

C言語で以下の構造体を定義したとき、int が4バイトで short が2バイトなので、
Info は合計で6バイトになりそうですが、実際はサイズアラインメントにより、コンパイラが
8バイトにします。バイナリからデータを解釈する際にこのことを考慮する必要があります。
通常、コンパイラになにも指定されない場合はデフォルトでアラインメントされます。

cpp

1struct Info 2{ 3 int a; 4 short b; 5}; 6 7Info data;

質問2,3

fields = struct.unpack('<IIIHH', data[start:start + 16])

は16バイトのデータを以下の構造体として解釈するという意味です。
もちろん、フォーマット 'IIIHH' と data[start:start + 16] のバイト数の整合性が取れていないと、エラーになります。
<リトルエンディアンで解釈するという意味を表しています。

cpp

1struct Field { 2 int crc32; // CRC32 の値 3 int compSize; // 圧縮後のバイト数 4 int uncompSize; // 圧縮前のバイト数 5 unsigned short fileNameSize; // ファイル名のバイト数 6 unsigned short extraSize; // 拡張領域のバイト数 7 8};

質問4

ヘッダーのファイル情報は zip ファイルに含まれる数だけ連続しています。
エラーがでる原因は、1つのファイルしか含まない zip ファイルなのに、for i in range(4): としているからです。

投稿2018/09/14 10:50

tiitoi

総合スコア21956

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問