Python: UnicodeDecodeErrorを直したいです
ここに質問の内容を詳しく書いてください。
python
1import matplotlib.pyplot as plt 2import numpy as np 3from mpl_toolkits.axes_grid1 import make_axes_locatable 4import math 5import matplotlib 6import matplotlib.cm as cm 7from mpl_toolkits.axes_grid1.inset_locator import inset_axes 8try: 9 import cPickle as pickle 10except: 11 import pickle 12# python 2.x 13import sys, codecs 14sys.stdout = codecs.getwriter('utf_8')(sys.stdout) 15# python 3.x 16import sys, io 17sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') 18コード
としておりますが,pickle.dumpされたデータを以下のように読み込もうとしましたが
python
1with open('match14Mpc_118kms_32.dat', 'rb') as f: 2 matched = pickle.load(f) 3 print(matched)
以下のようなエラーが出てしまいます。
python
1UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 3: ordinal not in range(128)
調べてheaderにあるように
python
1# python 2.x 2import sys, codecs 3sys.stdout = codecs.getwriter('utf_8')(sys.stdout) 4# python 3.x 5import sys, io 6sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')
は追加しているにもかかわらず同じエラーが出ます。
他に解決方法はございますか?
非常に困っております。よろしくお願いいたします。
Tracebackを省略せずに全文載せてもらえますか?
> # python 2.x
> import sys, codecs
> sys.stdout = codecs.getwriter('utf_8')(sys.stdout)
> # python 3.x
> import sys, io
> sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')
>
> は追加しているにもかかわらず同じエラーが出ます。
なんのために(どんな必要があって)追加したのか説明してもらえませんか?
open()がバイナリモードだと、エンコード関係無くそのまま読み書きするのだったような
差し支え無ければ、pickle.dump()している方のコードも追加していただけたら、他人も現象を再現できて、原因を考えやすくなります
書き込むデータ自体は、本物と全然違っても構いません
現象が再現さえすれば
io.TextIOWrapper(sys.stdout.buffer... は、print()とかで表示される「標準出力」の設定なので、普通のファイルをopen()して読み書きするのとは関係無いのではないですかね
もしかすると、
https://qiita.com/Kodaira_/items/91207a7e092f491fca43
の「[追記]dumpしたのがstringの場合」のケースですかね?
まさにそれです。
pickleをdumpしたものはssh接続先のpython2.7で作成したものです。
そちらで作成したデータをローカルで解析をしようとしたところでエラーがでています。そちらの記事を参考にさせて頂きます。誠にありがとうございます。
ちなみに、pickle.dumpしているのはssh先の大きいhdf.5とその他独自のpythonモジュールを使用しているのでこちらに記載することが出来ませんでした。申し訳ございません。
matched = pickle.load(open('match14Mpc_118kms_32.dat', 'rb'), encoding='bytes' )
matched = list(map(lambda x: x.decode('utf8'), pickle.load(open('match14Mpc_118kms_32.dat', 'rb'), encoding='bytes' ) ) )
print(matched)
を行いましたが,
TypeError Traceback (most recent call last)
<ipython-input-72-542792b104b7> in <module>
1 matched = pickle.load(open('match14Mpc_118kms_32.dat', 'rb'), encoding='bytes' )
2 matched = list(map(lambda x: x.decode('utf8'), pickle.load(open('match14Mpc_118kms_32.dat', 'rb'), encoding='bytes' ) ) )
----> 3 print(matched)
~/anaconda3/lib/python3.7/codecs.py in write(self, object)
376 """
377 data, consumed = self.encode(object, self.errors)
--> 378 self.stream.write(data)
379
380 def writelines(self, list):
~/.vscode/extensions/ms-python.python-2020.12.424452561/pythonFiles/lib/python/debugpy/_vendored/pydevd/_pydevd_bundle/pydevd_io.py in write(self, s)
38 for r in self._redirect_to:
39 if hasattr(r, 'write'):
---> 40 r.write(s)
41 finally:
42 self._writing = False
~/anaconda3/lib/python3.7/codecs.py in write(self, object)
375 """ Writes the object's contents encoded to self.stream.
376 """
--> 377 data, consumed = self.encode(object, self.errors)
378 self.stream.write(data)
379
TypeError: utf_8_encode() argument 1 must be str, not bytes
というエラーが出てしまいました…
「# decode('utf8')を使い、リスト内の各要素をdecode」の次の、「list...」で始まる行だけ実行しても、ダメですか?
【追記】二つ目のがそれですね
途中で改行してて気づきませんでした
失礼しました
上の2行
matched = pickle.load(open('match14Mpc_118kms_32.dat', 'rb'), encoding='bytes' )
matched = list(map(lambda x: x.decode('utf8'), pickle.load(open('match14Mpc_118kms_32.dat', 'rb'), encoding='bytes' ) ) )
は通りますが,
print(matched)が通らないです…
「matched = list(...」の行は実行しないで、「matched = pickle.load(...」の行を実行した直後に「print(matched)」を実行したら、どうなりますか?
現象が再現する小さなコード(保存している方と読み出している方)をとりまとめて、質問を編集しましょう。
(ここは「質問への追記・修正の依頼」欄であって、質問に関する情報をここに書いても読んでもらえる率は減るので)
それと、「io.TextIOWrapper(...」みたいなのは、やらないでください
「TypeError: utf_8_encode()」なので、デコードじゃなくてエンコードのエラーなので、そこが怪しい
「io.TextIOWrapper(...」は削除しました。
そしてprint(matched)だと同様のエラーがでました。しかし,matchedだけ打つと各要素のndarrayが出てきました…
今ネットで調べて見ましたが、今回の場合print()ではなぜ出てこないのかが分かりませんでした…(いつもはndarrayでもprintするとでてくるので)
「io.TextIOWrapper(...」をコードから削除した後に、pythonを起動し直さないと設定が残ってますけど、そこは大丈夫でしょうか?
あと、「matched = list(...」の行と「matched = pickle.load(...」の行は、どちらかだけ実行します
最初の方だけを実行してから、matchedの内容を確認して大丈夫なら、そちら
もし、確認して文字化けしてるなら、二つ目の方だけを実行してみて、同様に確認します
はい、そこは大丈夫です。
matchedと打つと,
{b'R200dm': array([18.40967751, 13.57799911, 13.76094246, ..., 2.25879788,
3.78782058, 2.57534003]),
b'Rmin': array([ 0.20357582, 12.58213072, 9.08364226, ..., 0.27102049,
7.80357966, 4.19724019]),
b'matchingHalos': array([ 0, 5, 1, ..., 2649, 597, 964]),
b'M200dm': array([3.91691886e-02, 1.57166123e-02, 1.63602047e-02, ...,
7.23574631e-05, 3.41180159e-04, 1.07229454e-04]),
b'red': array(19.99497596)}
と表示されます
そこでprint(matched[b'R200dm'])と打つと同様のエラー。
matched[b'R200dm']だけ打つと,array([18.40967751, 13.57799911, 13.76094246, ..., 2.25879788,
3.78782058, 2.57534003])
と確かに表示されます…
「print()」の代わりに「sys.stdout.buffer.write()」を使ってみるとか
http://drafear.hateblo.jp/entry/2017/10/19/155347
手元で現象を再現できないので、これで直るかは分かりませんけど
https://qiita.com/f0o0o/items/4cdad7f3748741a3cf74
には、「pickle.load()」に「encoding='latin1'」を付けるように書かれてました
関係あるか分かりませんが、念の為に紹介しておきます
あなたの回答
tips
プレビュー