質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.37%
C++

C++はC言語をもとにしてつくられた最もよく使われるマルチパラダイムプログラミング言語の1つです。オブジェクト指向、ジェネリック、命令型など広く対応しており、多目的に使用されています。

zip

ZIPとは、複数のファイルをひとつにまとめて圧縮したり、圧縮したファイルを展開することができるアーカイブフォーマットです。 1998年以降のWindowsOS各バージョンで、標準の圧縮フォルダとして採用されています。 MacOSでも、X v10.3以降に他の圧縮ソフトとまとめてZIP機能を採用しています。

Q&A

解決済

1回答

9726閲覧

zipファイルをメモリ展開するには(どうやってdeflateを解凍するか)

BeatStar

総合スコア4962

C++

C++はC言語をもとにしてつくられた最もよく使われるマルチパラダイムプログラミング言語の1つです。オブジェクト指向、ジェネリック、命令型など広く対応しており、多目的に使用されています。

zip

ZIPとは、複数のファイルをひとつにまとめて圧縮したり、圧縮したファイルを展開することができるアーカイブフォーマットです。 1998年以降のWindowsOS各バージョンで、標準の圧縮フォルダとして採用されています。 MacOSでも、X v10.3以降に他の圧縮ソフトとまとめてZIP機能を採用しています。

0グッド

1クリップ

投稿2020/11/20 07:24

編集2020/11/25 01:56

趣味でC++をやっています。

[概要] 複数のファイルをZIPファイルに固めて、そのZIPファイルを「ファイルとして解凍せずに」メモリ展開をしたいのですが、 どのようにやればいいのでしょうか。

たとえば { "binary1.bin", "binary2.bin", "binary3.bin" } を "archive1.zip" として固めて置きます。

そして、このarchive1.zipを 直接読み込んで binary1.bin 等をそれぞれ取り出したいのです。
(ただしメモリ上に展開すること)

参考1: Zipファイルを紙とペンで解凍してみた
参考2: ZIPの仕様を日本語でまとめる

を参考に、zipファイルの構成を調べて、自分なりにデータ列を取り出してみました。

未完成で、あっているかどうかはわかりませんが、一応、上記でいうファイルエントリなるものを取り出すことに成功しました。

コード

※ 字数制限の為、別のサイトをお借りしています。

そこで、今回は、**「取り出したファイルエントリのデータを、どうやって元に戻すのか」**が知りたいのです。

参考1の「ZIPセントラルディレクトリファイルヘッダ」の項目で、

圧縮メソッド
ファイルエントリがどのプロトコルで格納されたかが書いてあります。
今回は無圧縮なので0が入っていますが8のDeflateが一般的です。

とあります。それで(以前、別のzipファイルで試したとき)試してみると、8になっていました。
そのため、「Deflate」状態になっているのだと思いますが、
これをもとの状態(圧縮前の状態)にするにはどのようにやればいいのでしょうか。

[情報]
言語: C++
コンパイラ: MinGW (g++)


[追記1]

一応、SaitoAtsushiさんのおっしゃるように、zlibなるものをDLして実際に使ってみました。

一旦、今回の私のコードとは別の実行ファイルとしてzlibを使ったプログラムを生成しておき、
何らかの画像ファイルとそれをzipファイルにした圧縮ファイルのそれぞれを用意します。

[準備0] ■ zlibを使った解凍系プログラム (便宜上、zlibmain.exe とする) ■ 今回の自分のプログラム (main.exe とする) ■ 適当な画像ファイル (image1.jpgとする) ■ image1.jpgをzipファイルにしたもの (arc1.zipとする)

※ zlibmain.exe のコードは zlib 入門 にある comptest2.c をそのまま流用。

[やったこと1] 1. main.exeでarc1.zipからimage1.jpgをファイルとして取り出す  → そのファイルをcomp2.bin として生成しておく 2. zlibmain.exe で image1.jpg を comp.bin として圧縮する( "c" オプションにて ) 2. comp.bin と comp2.bin を それぞれ、BzEditor なるバイナリエディタでダンプリストを生成 3. (3)で生成されたダンプリストを二つ、比較してみる

この"やったこと1" では、そもそもデータが合っていないようです。

私が使った comp.bin では { ED, 02, 00, 00, 78, ... } となっていますが、
comp2.bin では { 01, FF, E0, F3, ... } のようになっています。

逆さなのかなぁと思い、(comp2.binを)逆から読んでみても、該当するデータ列が見つかりません。
単純に、ランダムに comp.bin にある { 00, 00 } をcomp2.bin から探し出して、
その周辺の16進数を比較しても同じデータになっていませんでした。

つまり、本来は同じファイルのデータを読んでいるはずなのに、別のデータ列になっているのです。

私の組み方が悪いのでしょうか。

あまりバイナリファイルを扱わないため、混乱しています…。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

具体的な形式は RFC 1951 として定められています。

実用的には zlib などのライブラリを活用するのが普通だと思います。 ライセンスが比較的緩いこともあってよく使われています。

質問の追加部分について

deflate では LZ77 が使われていますが、 LZ 系の圧縮アルゴリズムというのはそのバイト列中で過去に現れたパターンを「ここからここまでと同じのがここにまた現れるよ」という符号に置き換えることで成立しています。 意味のあるデータにはなんらかの繰り返しが存在するのが普通なのでそれで小さくなるのです。 (なのでランダムに近いデータは圧縮されにくく、 jpeg だと圧縮率はあまり良くないはずです。)

しかし、過去から同じパータンを探すというのは厳密にやろうとするとかなり時間のかかる処理で、探索範囲に制限をつけるなどしてほどほどにするのが一般的です。 質問者が参考にしたというページで Z_DEFAULT_COMPRESSION という値が設定されている箇所が zlib における圧縮レベルの設定です。

つまり deflate の仕様に反しない範囲でも選択の余地があり、同じ圧縮プログラムで同じパラメータを用いない限り圧縮したバイト列が完全一致するわけではありません。

zip のデータ部分の展開について

zlib ではデフォルトの設定では圧縮時に zlib ヘッダと呼ばれるデータを付加します。 また、展開時にもそのようなヘッダがあることを期待します。 zip アーカイブのデータ部分にはそれがありませんから失敗します。

ヘッダなしの生の圧縮データを展開するには inflateInit のかわりに inflateInit2 を使い、windowBits 引数に -8-15 を設定することになっています。 zlib の使い方の詳細は zlib.h 内にコメントの形で書かれているので参照してください。

投稿2020/11/20 08:11

編集2020/11/25 06:58
SaitoAtsushi

総合スコア5675

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

yumetodo

2020/11/20 10:12

さらにzlibのラッパーとしてboost::iostrams::zlibもあります
BeatStar

2020/11/21 05:59

ご回答ありがとうございます! zlib, boost::iostreams::zlib, RFC1951 ですね。 家族のPCからなので戻ってから試してみます!
BeatStar

2020/11/25 01:56

返信、遅れました…。 本文に追記したので、できればお願いします…。
BeatStar

2020/11/25 05:34

>> 同じ圧縮プログラムで同じパラメータを用いない限り圧縮したバイト列が... えーっと、つまり、『別のプログラム等で作成したzipファイルは読み込めない』ってことでしょうか? できれば圧縮自体はWindows等のような標準のやつか、WinRAR等で生成したもの…がいいのですが…
yumetodo

2020/11/25 05:43

「圧縮後のバイナリが同一になるとは限らない」という話と展開できるかどうかは別問題では?
SaitoAtsushi

2020/11/25 05:44 編集

圧縮したときにバイト列が一致しないと述べています。
yumetodo

2020/11/25 05:47 編集

なのでなんで質問者さんが圧縮後のバイナリ一致を期待するような話が出てきているのかよくわからんのですよね。
BeatStar

2020/11/25 06:25

あ、すみません…。 情報不足でしたね…。 本文では字数制限の為、ここに追記します。 最初、質問の追記にあるように、comp2.bin を生成し、 それをそのままzlibmain.exeにかませて復元しようとしましたが、 元の画像に戻りませんでした。(画像ビューアで見ると、表示されない…) なので(圧縮時の)バイト列が違うのかなぁと思い、バイナリエディタでチェックすると、追記のような状態でした。 そのために、追記で書いたのです。 (後出しになってすみません…)
tmp

2020/11/25 13:08

comp2.binのバイナリを見た感じ、先頭1バイト削除して復元できませんか?
BeatStar

2020/12/04 08:22

(家族のPCで質問しているので)返信遅くなり申し訳ありません。 inflateInit2関数を使うのですね… 試しに、inflateInit2関数を http://dencha.ojaru.jp/programs/pg_filer_04_extra_01.html や 質問にあるサイトを参考にしてやってみたのですが、 inflateInit2関数の第二引数、 deflateInit2関数の第四引数に相当する windowBits をどの数字で指定するべきかが わかりません… 日本語訳の方では(deflateInit2関数に関して)「 deflateInit の代わりに使った時など標準値は 15 です」とあり、 (inflateInit2関数に関しては)「inflateInit 関数の代替として使うのなら、デフォルト値の15です」とあります。 なので if( inflateInit2( &z, 15 ) != Z_OK )とやったのですが、Z_OK以外を返します。 (ファイル自体はcomp2.binの方を「解凍」で) 「windowBits は未処理 inflate 用に -8 ~ -15 にもなり得ります。この場合、-windowBits がウィンドウサイズになります。inflate() 関数が未処理の圧縮データを処理しようとするとき~」 とあるので、 第二引数を-15 にしてみたのですが、変わらず…
BeatStar

2020/12/15 07:34

yominetさん おお、なんか出来そうです。(URL先のやつで) いろいろ別の理由であまり深く試していませんが、 その方向性で考えてみます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.37%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問