numpy genfromtxt でutf-8ファイルを読み込む際のUnicodeDecodeErrorについて

###前提・実現したいこと
numpy genfromtxt でutf-8ファイルに書かれた日本語を読み込む際に、UnicodeDecodeErrorが出てしまいます。

###発生している問題・エラーメッセージ

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe3 in position 1: ordinal not in range(128)

###該当のソースコード

python3.4
1import numpy as np
2data = np.genfromtxt("hoge.tsv", delimiter="\t", names=True, dtype=float, converters={1: lambda x: x.decode('utf_8')})

###試したこと
hoge.tsvはutf-8できちんとコーディングできていることを確認しています。
一行目がヘッダー、二行目以下は小数や整数が並んでいます。
一行目のヘッダーのところにのみ日本語が用いられていて、
「日付_2015年」「性別」のようなヘッダーがついています。
ヘッダー行を抜かしたファイルを作成したところ、正しく読み込むことができました。

python3.4
1import sys
2sys.getdefaultencoding()

この結果は
'utf-8'
とpython自体のデフォルトはutf-8であることは確認しています。

###補足情報(言語/FW/ツール等のバージョンなど)
python3.4, OSX 10.9.5, numpy 1.11.0 を用いています。

どのようにすればヘッダー行を読み込むことができるのでしょうか。
ここやここなどを参考にしています。
dtypeの指定の仕方が間違っているのかと思うのですが、これ以上どのようにすれば良いのかが分かりません。

ご教示いただけますと幸いです。

行動規範の内容に同意します

回答1件

ベストアンサー

↓で先に回答出てしまいましたが、同じ結論です。

python - numpy genfromtxt でutf-8ファイルを読み込む際のUnicodeDecodeErrorについて - スタック・オーバーフロー
http://ja.stackoverflow.com/questions/28214/numpy-genfromtxt-%E3%81%A7utf-8%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E3%82%92%E8%AA%AD%E3%81%BF%E8%BE%BC%E3%82%80%E9%9A%9B%E3%81%AEunicodedecodeerror%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6

_bytes_to_name() ではヘッダ行のバイト列を ASCII コーデックにデコードしようとしてエラーが発生する事になります。

ヘッダーの列名が必要なら、上記回答のように別途読み込んで作成する、ですかね。
ヘッダーの列名が不要なら、Names=Trueの代わりにskip_header=1をセットして読み飛ばしてしまえばOKです。

参考リンク：

numpy.genfromtxt — NumPy v1.11 Manual
http://docs.scipy.org/doc/numpy/reference/generated/numpy.genfromtxt.html

投稿2016/08/12 13:14

argius

総合スコア9396

rkrk

2016/08/12 13:27

ありがとうございます。ヘッダー行にだけ日本語を用いていると、別途読み込んで作成するしかないのですね。あるいはskip_header=1で飛ばしてしまうか・・・本当にありがとうございました。助かりました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

numpy genfromtxt でutf-8ファイルを読み込む際のUnicodeDecodeErrorについて

関連した質問