質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.96%

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,666

essa

score 50

pandasでcsvファイルを読み込み、queryメソッドにて指定した条件を抽出しようとしたときに
「UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)」
というエラーがおきました。

プログラムは下記です。

import pandas as pd
import sys, codecs
import dask.dataframe as ddf

sys.stdout = codecs.getwriter('utf_8')(sys.stdout)
sys.stdin = codecs.getreader('utf_8')(sys.stdin)

hoge = ddf.read_csv(「ファイルネーム」,encoding='utf-8',engine='python')
hoge_ex = hoge.query('2000<"年"<2005')


デフォルトエンコーディングはutf-8です

解決策をご存知のかたがいましたら、おしえていただけると幸いです。

###################

下記追記情報

追記情報依頼ありがとうございます。
Pythonバージョン:Python3
CSVファイルのエンコーディング:UTF-8
TraceBack全文;

Traceback (most recent call last):
  File "csv_merge.py", line 16, in <module>
    hoge_ex = hoge.query('2000<"年"<2005')
  File "C:\user\Anaconda3\lib\site-packages\dask\dataframe\core.py", line 2367, in query
    meta = self._meta.query(expr, **kwargs)
  File "C:\user\Anaconda3\lib\site-packages\pandas\core\frame.py", line 2116, in query
    res = self.eval(expr, **kwargs)
  File "C:\user\Anaconda3\lib\site-packages\pandas\core\frame.py", line 2186, in eval
    return _eval(expr, inplace=inplace, **kwargs)
  File "C:\user\Anaconda3\lib\site-packages\pandas\core\computation\eval.py", line 267, in eval
    ret = eng_inst.evaluate()
  File "C:\user\Anaconda3\lib\site-packages\pandas\core\computation\engines.py", line 72, in evaluate
    self.result_type, self.aligned_axes = _align(self.expr.terms)
  File "C:\user\Anaconda3\lib\site-packages\pandas\core\computation\align.py", line 135, in _align
    return _result_type_many(*(term.value for term in terms)).type, None
  File "C:\user\Anaconda3\lib\site-packages\pandas\core\computation\common.py", line 20, in _result_type_many
    return reduce(np.result_type, arrays_and_dtypes)
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • can110

    2018/11/15 10:56

    BOM無ですね。了解です。CSVファイルの先頭数行だけでもコード表記(回答者がコピペで再現しやすい)で追記されると回答得られやすいかと思います。

    キャンセル

  • hayataka2049

    2018/11/15 12:15 編集

    念の為、改めてpythonのバージョンを確認してみてください。質問文のプログラムを実行しているのと同じ方法で、import sys;print(sys.version);print(sys.prefix)を実行してみてください

    キャンセル

  • essa

    2018/11/16 16:01

    hayataka2014様 返信ありがとうございます。別の方法で解決しました。

    キャンセル

回答 1

checkベストアンサー

0

直接の回答ではありませんが、今後エラー発生しそうなのでその部分の指摘のみ。

標準入出力のエンコードを切り替えていますが、Python2.x用の処理になっています。
Python3.x環境でprintするとType Errorが発生するはずです。
代わりにio.TextIOWrapperを使う必要があります。

参考:sys.stdout のエンコードを変更する in Python3.0

enc = 'utf-8' #他、cp932など

#import sys, codecs
#sys.stdout = codecs.getwriter(enc)(sys.stdout)
#sys.stdin = codecs.getreader(enc)(sys.stdin)
#print('あいう') # TypeError: write() argument must be str, not bytes

import sys,io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding=enc)
sys.stdin = io.TextIOWrapper(sys.stdin.buffer, encoding=enc)
print('あいう') # OK

 エラー現象について追記

以下の通り、コード一部修正+当方のCSVデータでは正常動作しました。参考まで。
ポイントとしては、query文字列において、SQLとは異なり列名を"で囲ってはいけないことに注意です。

# 以下では標準入出力は利用しないので、切り替えは不要だが
enc = 'utf-8' #他、cp932など
import sys,io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding=enc)
sys.stdin = io.TextIOWrapper(sys.stdin.buffer, encoding=enc)

import pandas as pd
import dask.dataframe as ddf

hoge = ddf.read_csv('inp.csv',encoding='utf-8',engine='python')
hoge_ex = hoge.query('2000<年<2005') # 年は""で囲わない!
                                     # UnicodeEncodeError('ascii', '年', 0, 1, 'ordinal not in range(128)')が発生
hoge_ex.to_csv('./out-*.csv',encoding='utf-8')

inp.csv

名称,年,値
あいう,2000,1.2
かきく,2004,3.4
さしす,2018,5.6

out-0.csv なぜか見出し先頭にカンマがついてしまう

,名称,年,値
1,かきく,2004,3.4

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/11/16 16:03

    can110様

    丁寧に回答していただき、ありがとうございます。
    参考にさせていただきました。

    また、pandasやdaskを使ってて思ったのですが、データの型式は統一していないと
    すぐにエラーが起きてしまうのですね。
    しっかりと整ったデータでしたらpandas等で処理しやすいですが、そうでない場合は
    csvモジュールを使ったほうが使いやすいと感じました。

    ベストアンサーにさせていただきます。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.96%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる