[Python]structモジュールを利用したzipファイルの解凍

前提・実現したいこと

Python: 3.6.4

公式ドキュメントの「11.3. バイナリデータレコードの操作」を学習しています。
公式：https://docs.python.jp/3/tutorial/stdlib2.html

struct.unpack(fmt, buffer)の記述の意味がよくわかりません。
検索しても欲しい情報になかなかヒットせず、お手上げです。
以下に何がわからないのか挙げておりますので、解説よろしくお願い致します。

発生している問題・エラーメッセージ

b'myfile.xlsx' 0xe4c7c4a2 7085 9753
b'' 0xc4a24d2e 464381127 639172608
Traceback (most recent call last):
  File "<stdin>", line 3, in <module>
struct.error: unpack requires a buffer of 16 bytes

該当のソースコード

用意した'myfile.zip'にはExcelファイルが入っています。
適当に、A1セル:あいうえ, B1セル:aiueo, C1セル:12345　と記述してあります。

Python
1>>> import struct
2>>>
3>>> with open('myfile.zip', 'rb') as f:
4...     data = f.read()
5...
6>>> start = 0
7>>> for i in range(3):                      # show the first 3 file headers
8...     start += 14
9...     fields = struct.unpack('<IIIHH', data[start:start+16])　　# ここがよくわからない
10...     crc32, comp_size, uncomp_size, filenamesize, extra_size = fields
11...
12...     start += 16
13...     filename = data[start:start+filenamesize]
14...     start += filenamesize               # ここでERROR
15...     extra = data[start:start+extra_size]
16...     print(filename, hex(crc32), comp_size, uncomp_size)
17...
18...     start += extra_size + comp_size     # skip to the next header

参考にしたURL

以下は、すべてこちらを参考にしております。
https://docs.python.jp/3/library/struct.html#struct.calcsize

わからないこと①

'<IIIHH'の'<'のサイズ「standard」とは、何を基準にスタンダードと言っているのでしょうか？

わからないこと②

IIIHH　は合わせて何バイトなのでしょうか？
2+2+2+4+4 で14バイトでしょうか？

わからないこと③

unpack()の第一引数 fmt が何をしているのかわかりません。

unpack()について、
書式文字列 fmt に従って、構造体 (それと pack(fmt, ...) によって作成されるバイト列オブジェクト) のサイズを返します。

と書いてあるのですが、さっぱりです・・・。

わからないこと④

今回、struct.errorが出ていますが、このエラーについて調べてみると以下の記述がありました。

整数フォーマット ('b', 'B', 'h', 'H', 'i', 'I', 'l', 'L', 'q', 'Q') のいずれかを使って値 x をパックするとき x がフォーマットの適切な値の範囲に無い場合、 struct.error が送出されます。

つまり、'<IIIHH'バイトサイズと、data[start:start+16]の範囲のサイズがあっていないということでしょうか?
data[start:start+16]のバイト数を調べて、'<IIIHH'の部分を変更して、完全に同じサイズにしなければならないということですか？

質問が多くてすいません。回答よろしくお願い致します。

行動規範の内容に同意します

回答1件

ベストアンサー

理解するためのキーポイント

ZIPファイルフォーマット

こちらを見て、ZIPファイルのフォーマットについて理解してください。

C言語の構造体、エンディアン、バイトアラインメント

struct.unpack() は、C言語に出てくる構造体が関係しています。

提示されたコードについて

以下のような test ディレクトリを test.zip に圧縮して、提示されたコードを動かしました。
各テキストファイルには、test という文字列が記載されています。

test
├── test1.txt
├── test2.txt
└── test3.txt

ZIPファイルのバイナリデータの先頭にヘッダーがあり、どのようなファイルを含んでいるかの情報が記載されています。
ヘッダには、以下の情報が圧縮ファイルに含まれるファイル数分繰り返されています。(ファイルには、test1.txt, test2.txt, test3.txt の他、test というディレクトリ自身も含まれます。)

ZIPファイルフォーマットより

バイト数	意味
4	Local file header であることを示す固定値
2	ZIP のバージョン
2	オプションフラグ
2	ファイル圧縮に用いたアルゴリズム
2	タイムスタンプ (時刻)
2	タイムスタンプ (日付)
4	CRC-32 の値
4	圧縮後のデータ量
4	圧縮前のデータ量
2	file name フィールドのサイズ
2	extra field フィールドのサイズ
s	ファイル名
s	拡張データ

# encoding: utf-8
import struct

with open('test.zip', 'rb') as f:
    data = f.read()  # ファイルの中身をすべて読みだす。

start = 0

num_files = 3  # zip ファイルが含むファイルの数
for i in range(3):
    #「Local file header であることを示す固定値」から
    #「タイムスタンプ (日付)」までの14バイトをスキップ
    start += 14

    # 「CRC-32 の値」から「extra field フィールドのサイズ」までの16バイトを解釈する。
    fields = struct.unpack('<IIIHH', data[start:start + 16])
    crc32, comp_size, uncomp_size, filenamesize, extra_size = fields
    start += 16  # 16バイト進める。

    # filenamesize でファイル名の長さが何バイトかわかったので、
    # 「ファイル名」を解釈する。
    filename = data[start:start + filenamesize]
    start += filenamesize  # filenamesize バイト進める。

    # extra_size で拡張データの長さが何バイトかわかったので、
    # 拡張データを解釈する。
    extra = data[start:start + extra_size]
    print(filename, hex(crc32), comp_size, uncomp_size)

    start += extra_size + comp_size
    # 以上が ZIP ファイルに格納されているファイル数分繰り返される。
    # 今回は3ファイルなので、for i in range(3): となっている。

filename: test/, CRC32: 0x0, comp size: 0, uncomp size: 0
filename: test/test3.txt, CRC32: 0xd87f7e0c, comp size: 4, uncomp size: 4
filename: test/test2.txt, CRC32: 0xd87f7e0c, comp size: 4, uncomp size: 4
filename: test/test1.txt, CRC32: 0xd87f7e0c, comp size: 4, uncomp size: 4

質問について

質問1

'<IIIHH'の'<'のサイズ「standard」とは、何を基準にスタンダードと言っているのでしょうか？

standard: サイズアラインメントを考慮する。
naive: サイズアラインメントを考慮しない。

C言語で以下の構造体を定義したとき、int が4バイトで short が2バイトなので、
Info は合計で6バイトになりそうですが、実際はサイズアラインメントにより、コンパイラが
8バイトにします。バイナリからデータを解釈する際にこのことを考慮する必要があります。
通常、コンパイラになにも指定されない場合はデフォルトでアラインメントされます。

cpp
1struct Info
2{
3    int a;
4    short b; 
5};
6
7Info data;

質問2,3

fields = struct.unpack('<IIIHH', data[start:start + 16])

は16バイトのデータを以下の構造体として解釈するという意味です。
もちろん、フォーマット 'IIIHH' と data[start:start + 16] のバイト数の整合性が取れていないと、エラーになります。
< はリトルエンディアンで解釈するという意味を表しています。

cpp
1struct Field {
2    int crc32;  // CRC32 の値
3    int compSize;  // 圧縮後のバイト数
4    int uncompSize;  // 圧縮前のバイト数
5    unsigned short fileNameSize;  // ファイル名のバイト数
6    unsigned short extraSize;  // 拡張領域のバイト数
7
8};