質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.46%

  • Python 3.x

    10370questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • UTF-8

    129questions

    UTF-8は8ビット符号単位の文字符号化形式及び文字符号化スキームです。データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向があります。

  • Unicode

    74questions

    Unicodeはエンコーディングの標準規格です。1つの文字コード体系で多国語の表現を可能にすることを目指して作られています。

Python3のUnicodeEncodeErrorについて

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,214

teityura

score 51

下記を実行し、英数字をinputすれば問題なく動作するのですが、
日本語文字列を入れると、
UnicodeEncodeError: 'utf-8' codec can't encode characters in position [txt変数に格納された文字列の該当位置開始位置から終了位置]: surrogates not allowed

type(txt):  <class 'str'>
type(answer):  <class 'str'>
typeを見ても、同じstr型のクラスで問題なさそうに思えます。
どう解釈されて、なぜエラーになっているのでしょうか。

# エラー内容 ↓↓↓↓↓
キリンは大昔から__複数名詞__の興味の対象でした、キリンは__複数名詞__の中で一番背が買いですが、科学者たちはそのような長い__体の一部__をどうやって獲得したのか説明できません。キリンの身長は___数値__ __単位__ 近くあり、その高さのほとんどは足と__体の一部__によるものです。

type(txt):  <class 'str'>
type(mls):  <class 'str'>
__複数名詞__を入力: あういえお
type(answer):  <class 'str'>
__複数名詞__を入力: a
type(answer):  <class 'str'>
__体の一部__を入力: i
type(answer):  <class 'str'>
___数値__を入力: u
type(answer):  <class 'str'>
__単位__を入力: e
type(answer):  <class 'str'>
__体の一部__を入力: o
type(answer):  <class 'str'>


Traceback (most recent call last):
  File "17-p213.py", line 29, in <module>
    mad_libs(txt)
  File "17-p213.py", line 23, in mad_libs
    print(mls)
UnicodeEncodeError: 'utf-8' codec can't encode characters in position 8-22: surrogates not allowed
#!/usr/bin/env python3.6
# encoding: utf-8

import re
import io, sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding="utf-8")

txt = """キリンは大昔から__複数名詞__の興味の対象でした、キリンは__複数名詞__の中で一番背が買いですが、科学者たちはそのような長い__体の一部__をどうやって獲得したのか説明できません。キリンの身長は___数値__ __単位__ 近くあり、その高さのほ>とんどは足と__体の一部__によるものです。
"""

def mad_libs(mls):
    hints = re.findall("__.*?__", mls)
    print("type(mls): ", type(mls))
    if hints is not None:
        for hint in hints:
            question = "{}を入力: ".format(hint)
            answer = input(question)
            print("type(answer): ", type(answer))
            # 1つだけ置換
            mls = mls.replace(hint, answer, 1)
        print("\n")
        mls = mls.replace("\n", "")
        print(mls)
    else:
        print("引数: mls が無効です")

print(txt)
print("type(txt): ", type(txt))
mad_libs(txt)

※追記: 
export LC_ALL=en_US.UTF-8
をしたら日本語をinput()に渡したら動作するようになりましたが、
exportしなくてもいいように、
import io, sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding="utf-8")
を追加したのですが、なぜこのような違いが出るのでしょうか。

echo $SHELL
/usr/bin/fish

fish --version
fish, version 2.7.1

echo $locale

echo $LC_ALL

export LC_ALL=en_US.UTF-8
echo $locale

echo $LC_ALL
en_US.UTF-8
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • can110

    2018/11/11 19:05 編集

    Windows環境にて再現しません。単純な"あいう"などを入力しても surrogates not allowedになりますか?あるいは別のエラーにならないでしょうか?可能であればエラーのTraceback全文を提示ください。

    キャンセル

回答 1

checkベストアンサー

+1

export LC_ALL=en_US.UTF-8でいけるようになるなら、何もしないとロケールの設定が日本語非対応とか、UTF-8と噛み合わないとか、それだけの話です。

環境のロケールを変えて使えば良いような気もしますが、そうしたくない場合は。

sys.stdin = io.TextIOWrapper(sys.stdin.buffer, encoding="utf-8")

input()使うのならstdinも書き換えましょう。
(質問文にエラー箇所のわかるtracebackが出てないので、たぶんこれじゃないかなぁ、というのを書いているだけで、外しているかもしれません)

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/11/14 12:32

    sys.stdinの方も追加してみると解決しました。
    回答ありがとうございました!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.46%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る

  • Python 3.x

    10370questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • UTF-8

    129questions

    UTF-8は8ビット符号単位の文字符号化形式及び文字符号化スキームです。データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向があります。

  • Unicode

    74questions

    Unicodeはエンコーディングの標準規格です。1つの文字コード体系で多国語の表現を可能にすることを目指して作られています。