pythonのjson.loadsで文字化けを防ぐ方法に関して

Question

python3.6にてcgiを作製しております。クライアント(javascript)からデータを受け取った後までは、日本語がそのまま表示されるのですが、json.loads()にてjsonを読み込ませたところから文字コードが文字化けしてしまいます。 utf-8やshift-jisへの変換を試してみましたがすべて、変換できないといったエラーが返されてしまいます。どうしても、方法がわからなくて困ってます。ご教授いただければ幸いです。 ※ 下記にソースを簡単に再現しました。 #クライアント ```html

: : ``` ```javascript $.post("test.py", JSON.stringify({text:"ふぇふぇふぇ"}), (res) => { : : }); ``` #サーバー(cgi) ```python3 #!/usr/bin/env python3.6 # -*- coding: utf-8 -*- import json import cgi import cgitb import sys, io cgitb.enable() print('Content-type: text/html; charset=UTF-8 ') #sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') data = sys.stdin.read() print(data) params = json.loads(data) print(params) exit() ``` #出力結果下記のようにdataまでは日本語ですが、json.loads後がバイトコードが表示されてしまいます。 ```output {"text":"ふぇふぇふぇ"} {'text':'\udce3\udc81\udcb5\udce3\udc81\udc87\udce3\udc81\udcb5\udce3\udc81\udc87\udce3\udc81\udcb5\udce3\udc81\udc87'} ``` #試したこと下記一文を入れてutf-8に変換しようとしたら、unicodeEncodeErrorが返されました。 ```python3 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') ``` ```error UnicodeEncodeError: 'utf-8' codec can't encode characters in position 9-26: surrogates not allowed args =('utf-8', '{"text":"\udce3\udc81\udcb5\udce3\udc81\udc87\udce3\udc81\udcb5\udce3\udc81\udc87\udce3\udc81\udcb5\udce3\udc81\udc87"}', 9, 27, 'surrogates not allowed') encoding ='utf-8' end =27 object ='{"text":"\udce3\udc81\udcb5\udce3\udc81\udc87\udce3\udc81\udcb5\udce3\udc81\udc87\udce3\udc81\udcb5\udce3\udc81\udc87"}' reason ='surrogates not allowed' start =9 with_traceback = ``` #補足20190424 13:21 環境面の補足です。 python3のデフォルトのencodingですが、環境で実行した場合とcgiから実行した場合で値がことなりました。サーバーでインタプリタで実行した際は「UTF-8」でしたが、 cgiから実行した場合は、stdin/stdoutともに、「ANSI_X3.4-1968」でした。 ```Bash $ locale LANG=ja_JP.UTF-8 LC_CTYPE="ja_JP.UTF-8" LC_NUMERIC="ja_JP.UTF-8" LC_TIME="ja_JP.UTF-8" LC_COLLATE="ja_JP.UTF-8" LC_MONETARY="ja_JP.UTF-8" LC_MESSAGES="ja_JP.UTF-8" LC_PAPER="ja_JP.UTF-8" LC_NAME="ja_JP.UTF-8" LC_ADDRESS="ja_JP.UTF-8" LC_TELEPHONE="ja_JP.UTF-8" LC_MEASUREMENT="ja_JP.UTF-8" LC_IDENTIFICATION="ja_JP.UTF-8" LC_ALL= ``` #補足20190424 13:54 皆様のおかげでjsonファイルにunicodeを出力するところまで行けました。 unicodeであれば読み込むときに変換ができるので、なんとか行けそうです。ただ、ファイルにコードではなくちゃんと日本語で表記されるようにするにはどうすればよいでしょうか？ dumpsでensure_ascii=Falseにしても、どうしてもunicodeで出力されてしまいます。 ```python3 #!/usr/bin/env python3.6 # -*- coding: utf-8 -*- import json import cgi import cgitb import sys, io cgitb.enable() sys.stdin = io.TextIOWrapper(sys.stdin.buffer, encoding='utf-8') sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') sys.stderr = io.TextIOWrapper(sys.stderr.buffer, encoding='utf-8') print('Content-type: text/html; charset=UTF-8 ') data = sys.stdin.buffer.read() print(data) params = json.loads(data) print(params) with open("sample", mode="w", encode="utf-8") as f: json.dumps(params, f, indent=2, ensure_ascii=False) exit() ``` ```output {"text": "\u3042"} {"text": "あ"} ``` ファイルに{"text": "あ"}と出力したい。 ```sample {"text": "\u3042"} ``` #補足20190424 14:11 解決しました。ソースを何度も修正する際にミスが有ったようです。具体的には、同じコードを複数書いてexit()で実行されないようにしていたのですが、 ensure_ascii=Falseを追加する場所を間違えてました。ずっとこの課題に取り組み、疲れが溜まっていたのが原因です。本当に解決してよかったです。しばらく休みます。下に最終的にうまく行ったコードを載せます。 ```python3 #!/usr/bin/env python3.6 # -*- coding: utf-8 -*- import json import cgi import cgitb import sys, io cgitb.enable() sys.stdin = io.TextIOWrapper(sys.stdin.buffer, encoding='utf-8') sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') sys.stderr = io.TextIOWrapper(sys.stderr.buffer, encoding='utf-8') print('Content-type: text/html; charset=UTF-8 ') data = sys.stdin.buffer.read() print(data) params = json.loads(data.decode()) print(params) with open("sample", mode="w", encoding="utf-8") as f: json.dumps(params, f, indent=2, ensure_ascii=False) exit() ```

Accepted Answer

何が起こっている分からないので、何を確認するか、という話だけ。

----

print関数のデコードの影響を受けないように、`print(data)` のところを `print(data.encode('unicode_escape'))` として、文字列に実際に**どんなコードポイントで格納されているか**を確認する。

実行例
```plain
% echo -n 'ふ' | python -c 'import sys; print(sys.stdin.read().encode("unicode_escape"))'
b'\u3075'
```
（注: 長さ6のバイト列です）

----

エンコード/デコードの影響を受けないように、

```python
data = sys.stdin.read()
print(data)
```
を
```python
data = sys.stdin.buffer.read()
print(data)
```
として、バイト列に実際に**どんなデータが格納されているか**を確認する。


実行例
```plain
% echo -n 'ふ' | python -c 'import sys; print(sys.stdin.buffer.read())'
b'\xe3\x81\xb5'
```
（注: 長さ3のバイト列です）

----

どんな結果になるでしょうか?

エンコード/デコード関連のトラブルだと、`print(data)`して`{"text":"ふぇふぇふぇ"}`が出たからといって安心できなくて、`"`と`ふ`の間に不可視文字があるんじゃないの? などを疑ったりしないといけないので、コードポイントやバイナリデータを見るようにしましょう。

例
```plain
% python -c 'print("ふ")'
ふ
% python -c 'print("\uFEFFふ")'
ふ
(↑ゼロ幅空白\uFEFFが一見して区別できない)

% python -c 'print("ふ".encode("unicode_escape"))'
b'\u3075'
% python -c 'print("\uFEFFふ".encode("unicode_escape"))'
b'\ufeff\u3075'
```

----
KSwordOfHaste さんの回答の続きのような形になりますが、

```plain
% echo -n 'あ' | LANG=C python -c 'import sys; print(sys.stdin.read().encode("unicode_escape"))'
b'\udce3\udc81\udc82'
% LANG=C python -c 'import sys; print(sys.stdin.encoding, sys.stdout.encoding)'
US-ASCII US-ASCII
```
`LANG=C` の設定下だと`sys.stdin`の方も US-ASCII encoding になる影響を受けるので、

```python
sys.stdin = io.TextIOWrapper(sys.stdin.buffer, encoding="utf-8")
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding="utf-8")
```
とするのがいいようです。

```plain
% echo -n 'あ' | LANG=C python -c 'import io, sys; sys.stdin = io.TextIOWrapper(sys.stdin.buffer, encoding="utf-8"); print(sys.stdin.read().encode("unicode_escape"))'
b'\u3042'
```

Answer

quiquiさんが本質的なことを既にコメントされているので蛇足かも知れませんが、再現できたっぽいのでコメントします。quiquiさん回答とダブってるところがありますがご容赦ください。

多分サーバー上でのロケール設定(LANGないしはLC_CTYPE)がCなどになっているのではないでしょうか？

cgi.py

python
1#!/usr/bin/python3
2#coding: utf-8
3import sys
4import json
5
6print('stdin:', sys.stdin.encoding)
7print('stdout:', sys.stdout.encoding)
8
9data = sys.stdin.read()
10
11s = ''.join(c for c in data if ord(c) > 0xff)  # 日本語文字のみ残す
12c = ''.join(f' U+{ord(c):04x}' for c in s)     # U+xxxx形式に変換
13# out = s.encode(sys.stdout.encoding)  # LC_CTYPE=Cのとき例外が起きたので断念
14print('in python str: ', c)
15# print('encoded for output: ', out)   # LC_CTYPE=Cのとき例外が起きたので断念
16print(data)
17
18prms = json.loads(data)
19print(prms)

(quiquiさんの回答にある`data.encode('unicode_escape')を知らなかったためエレガントでない方法でコードポイントを表示しています・・・)

bash
1$ locale
2LANG=ja_JP.UTF-8
3LC_CTYPE="ja_JP.UTF-8"
4LC_NUMERIC="ja_JP.UTF-8"
5LC_TIME="ja_JP.UTF-8"
6LC_COLLATE="ja_JP.UTF-8"
7LC_MONETARY="ja_JP.UTF-8"
8LC_MESSAGES="ja_JP.UTF-8"
9LC_ALL=
10                     # 注: bashを動かしている端末もUTF8にしてます
11
12$ cat in
13{"text":"ふぇふぇふぇ"}
14
15$ ./cgi.py < in
16stdin: UTF-8
17stdout: UTF-8
18in python str:   U+3075 U+3047 U+3075 U+3047 U+3075 U+3047
19{"text":"ふぇふぇふぇ"}
20
21{'text': 'ふぇふぇふぇ'}
22
23$ LC_CTYPE=C ./cgi.py < in
24stdin: ANSI_X3.4-1968
25stdout: ANSI_X3.4-1968
26in python str:   U+dce3 U+dc81 U+dcb5 U+dce3 U+dc81 U+dc87 U+dce3 U+dc81 U+dcb5 U+dce3 U+dc81 U+dc87 U+dce3 U+dc81 U+dcb5 U+dce3 U+dc81 U+dc87
27{"text":"ふぇふぇふぇ"}
28
29{'text': '\udce3\udc81\udcb5\udce3\udc81\udc87\udce3\udc81\udcb5\udce3\udc81\udc87\udce3\udc81\udcb5\udce3\udc81\udc87'}
30
31$

LC_CTYPEがUTF-8となっている場合はstrの各文字は期待通りのコードポイント値('ふ'がU+3075、'ぇ'がU+3047)になってました。LC_CTYPEをCにするとこれがサロゲートペアにあたる範囲のコードポイントになってしまってます。要するにこれはPythonにおいてふぇふぇふぇを表す文字ではないです。

下記のようにdataまでは日本語ですが

そこの認識がちょっと不足していたのだと思います。上に示したように本当に期待通りの文字かどうかはそのまま表示しても確かなことはわからないと思います。Pythonのstrの各要素の文字のコードポイントを確認して初めて安心できると思います。(quiquiさん回答の通り)

自分の環境(Windows 10 cygwin64bit)ではLC_CTYPEをCにするとPythonインタープリタのI/OエンコーディングがANSI_X3.4-1968となっていました。検索してみつけたのはJavaの資料でしたが、それによればこれはUS_ASCIIとのことでした。普段そんなものを使わないので正確なエンコーディング規則がわかりませんでしたが、7bit(or 8bit?)の範囲で基本的なラテン文字しか含まないものだと思います。

PythonがそのエンコーディングでUTF-8の2バイト以上でエンコードされた文字(MSB=1になったバイト)を読むとどうやらサロゲートペア範囲のコードポイントとして読み込まれるようです。いずれにせよ化けてないように見えたのはこれを逆変換した際に元のUTF8のバイト列が再現されたため端末には期待通りに表示されてしまい、あたかも正しい日本語がPythonに読み込まれたかのように見えただけだと思います。

対処

PythonインタープリタのI/Oのエンコーディングをstdin, stdoutともにUTF-8にすれば期待通りになるのではないでしょうか？あるいはPythonを実行する環境のlocale設定を同じCロケールでもC.UTF-8にしておくとか。

Answer

[json.loads](https://docs.python.org/ja/3.6/library/json.html#json.loads)
> 無視される非推奨の引数 encoding を除いて、その他の引数は load() のものと同じ意味です。

とあるように.loadsではencoding指定しても無意味です。よって以下回答は取り消します。

~~当方の非CGI環境では現象再現できませんでしたが、`params = json.loads(data,encoding='utf-8')`のようにloads時に文字コードutf-8指定してみてはいかがでしょうか？~~

関連した質問