質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

2091閲覧

バイナリデータをdecodeして編集したい

mrk_5200

総合スコア17

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/04/24 16:56

全球スケールで空間解像度0.1°×0.1°の格子点に埋め込まれた気象データ(~.dat.gz)を解凍しました。目的としては、日本の領域内のグリッドデータを切り取り、自分でも読み書きできるようにしたいと思っております。
その前段階として、data.decode("UTF-8")をしましたが、以下のようなエラーが出ています。
'utf-8' codec can't decode byte 0xc6 in position 106: invalid continuation byte

ちなみにデータフォーマットを見ると「4-byte float plain binary, little-endian」とのことです。実際のバイナリデータは膨大なビッグデータなのでお見せすることはできませんが、ご助言頂ければ幸いです。宜しく御願い致します。

python

1import gzip 2 3f = gzip.open("~.dat.gz","rb") 4data = f.readline() 5 6while line: 7 text = data.decode("UTF-8") 8 print(text) 9 data = f.readline() 10f.close()

OS:Windows 10 Home
python:Python 3.7.1

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

バイナリーデータを読み書きする手段としてstructモジュールが便利と思います。

ファイルをバイナリーモードでopenしそれをreadすると結果がbytesとして得られますがそれに対してstructモジュールのunpackでいくつかの基本的なバイナリー形式での値がデコードできます。例えば4バイトのIEEE754浮動小数点数(リトルエンディアン)なら

python

1from struct import unpack 2 3 4... 5with open(filename, 'rb') as fp: 6 // 必要に応じてfp.seekなどで望みの位置へ移動 7 ... 8 // 現在位置から4バイトだけバイナリーデータとして読み込む 9 buf = fp.read(4) 10 // バイナリーデータ4バイトをPythonのfloatへアンパック 11 fval = unpack('<f', buf) 12 ...

上の例は4バイトのbytesを変換する例ですがunpack_fromという関数もあり、もっと長いbytesデータの任意の位置からアンパックすることもできます。詳細はリファレンスをご覧ください。

https://docs.python.org/ja/3.7/library/struct.html#module-struct

投稿2019/04/24 17:53

KSwordOfHaste

総合スコア18394

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mrk_5200

2019/04/25 07:04

ご丁寧にありがとうございます。 早速、unpackで試みたところ、unpack requires a buffer of 4 bytesと出てきました。どういった原因が考えられるでしょうか。 そもそも、自分の取得したデータに対する理解を深めるべきなのかもしれませんが。。
KSwordOfHaste

2019/04/25 11:16

4バイトのデータでなかったかbytesやbytearray形でないものを指定したと考えられます。「型や長さがどうなっているか」をPythonでデバッグプリントしてみてください。 print(type(buf)) print(len(buf)) などとすれば確実なことがわかります。エラーメッセージだけみるより「実際に何を指定したのかを確認する」のが肝心と思います。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問