Pythonで¥uコードの変換

Question

catコマンド単体では文字コードの変換がうまく行われますが、それを複製するとエラーが出ます。

$ cat text
\u30ec\u30b6\u30fc

$ cat text |python -c 'from sys import stdin; print stdin.readline().decode("unicode-escape")'
レザー

こちらは正常に変換

$ cat text |python -c 'from sys import stdin; print stdin.readline().decode("unicode-escape")' > text2
Traceback (most recent call last):
  File "<string>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)

コピーするとエラーが発生

$ python -c 'from sys import stdin; print stdin.readline().decode("unicode-escape")' < text > text2
Traceback (most recent call last):
  File "<string>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)

別の書き方でも

文字コードをエンコードして保存したいのですが、何か方法はありませんか？

昨日こちらの質問をしました
https://teratail.com/questions/110464
Pythonしか方法がないので主旨を変えて質問いたします。よろしくお願いします。

Accepted Answer

> UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)

python 2.x系は意識して起動することが少ないのですが・・・
こういうスクリプトにするとうまく出力できるようです。/usr/bin/pythonはpython2.xである前提です。

```python
#!/usr/bin/python
from sys import stdin
s = stdin.readline().decode("unicode-escape")
print s.encode('utf-8')
```

文字セットに絡む話はややこしいですが、上記でなぜうまくいくか自分にはちゃんと説明できません。python 2.xでのprint時のエンコーディングは
```python
import locale
locale.getpreferredencoding()
```
で決まるという記事を見たのですがリダイレクト(`> txt2`)をしてもしなくても自分の環境ではUTF-8でした。にもかかわらずリダイレクトした場合のみ`UnicodeEncodeError: 'ascii' codec `と出るので、それはつまりprint時のエンコーディングがリダイレクトした場合ではUTF-8ではなくASCIIになっているという事実を示しているのだと思います。

「python 2 print encoding」で詳しく調べてみてはいかがでしょう？

Answer

Pythonは、Unicode文字列の別の型があります。`decode`結果は普通の文字列なので、Unicode型に変換する必要があるようです。

```Bash
echo '\u30ec\u30b6\u30fc' |
python -c 'from sys import stdin; print stdin.readline().decode("unicode-escape").encode("utf-8")' > out.txt
```

Answer

```bash
$ cat text | PYTHONIOENCODING=utf-8 python -c (以下略)
```

でどうでしょうか？

参考URL: [Python2で文字列を処理する際の心掛け](https://qiita.com/FGtatsuro/items/cf178bc44ce7b068d233#%E3%81%A8%E4%BB%8A%E3%81%BE%E3%81%A7%E6%80%9D%E3%81%A3%E3%81%A6%E3%81%84%E3%81%9F%E3%81%8C)

Answer

元データ内容について誤解釈しており、完全に間違った回答をしていました。失礼しました。標準入力で受け取るのはユニコードエスケープ形式の文字列であり、これは `stdin.readline().decode("unicode-escape")`により正しく`unicode`文字列に変換されます。しかし次の出力処理 `print`において、出力先がターミナル（端末）では正常に動作していますが、出力先がファイルの場合にエラーが発生しています。その原因および対応法は`fuzzball`さんの回答に示されているリンク先が正しいかと思います。以下、以前の回答 ----- まず、`cat`コマンドは**文字コードの変換**はおこないません。 `text`の内容が、ユニコードエスケープ(\uxxxx)されて表現（出力）されているにすぎません。元データのエンコーディングが判っており[iconv](https://ja.wikipedia.org/wiki/Iconv)が入っていれば、以下のように任意のエンコーディングに変換できます。 ```PlainText $ which iconv /home/hoge/anaconda3/bin/iconv $ iconv -f UTF-16LE -t UTF-8 text > utf-8.txt $ od -Ax -tx1z ret.txt 000000 e3 83 ac e3 82 b6 e3 83 bc >.........< #「レザー」のUTF-8表現 000009 ``` 元データのエンコーディングが判らない場合は[chardet](http://chardet.readthedocs.io/en/latest/index.html)をインストールすることでエンコーディングを自動判別できるので、以下のようなコードで変換できます。ただし、この手法の限界として、誤判定する可能性が多分にあります。 ```Python import sys import chardet inp = sys.stdin.readline() det = chardet.detect(inp) uni_s = inp.decode(det['encoding']) # 失敗する可能性あり u8_s = uni_s.encode('utf-8') sys.stdout.write( u8_s) ``` また、どうしても素の`Python2.x`でやる必要があれば、以下のようなコードでも、それなりにできます。元データを片っ端からデコード→再エンコードしてみて成功（元データと一致）したエンコーディングを採用するという手法です。参考： [テキストファイルのエンコーディングを自動判定して処理する](https://qiita.com/zarchis/items/3258562ebc9570fa05a3) [Pythonにおける日本語のエンコーディングの検出について](http://d.hatena.ne.jp/kakurasan/20100330/p1) ```Python # 任意エンコード文字列をunicode文字列に自動変換 # https://qiita.com/zarchis/items/3258562ebc9570fa05a3 def conv_encoding(s): encs = ( # jis系から先に試す # http://d.hatena.ne.jp/kakurasan/20100330/p1 'iso2022jp', 'iso2022_jp_1', 'iso2022_jp_2', 'iso2022_jp_3', 'iso2022_jp_ext', 'utf_8', 'euc_jp', 'euc_jis_2004', 'euc_jisx0213', 'shift_jis', 'shift_jis_2004','shift_jisx0213', 'latin_1', 'ascii') for enc in encs: try: us = s.decode(enc) if isinstance( us, unicode): # 念のため再エンコードし一致判定 ds = us.encode(enc) if s == ds: return us,enc except: pass raise LookupError import sys inp = sys.stdin.readline() (uni_s,enc) = conv_encoding(inp) #sys.stderr.write(enc+' ') u8_s = uni_s.encode('utf-8') sys.stdout.write( u8_s) ``` WSL(Windows Subsystem for Linux)での検証結果 ```PlainText $ od -Ax -tx1z iso2022jp.txt 000000 1b 24 42 25 6c 25 36 21 3c 1b 28 42 >.$B%l%6!<.(B< 00000c $ python temp.py < iso2022jp.txt > ret.txt iso2022jp od -Ax -tx1z ret.txt 000000 e3 83 ac e3 82 b6 e3 83 bc >.........< 000009 $ od -Ax -tx1z utf8.txt 000000 e3 83 ac e3 82 b6 e3 83 bc >.........< 000009 $ python temp.py < utf8.txt > ret.txt utf_8 $ od -Ax -tx1z ret.txt 000000 e3 83 ac e3 82 b6 e3 83 bc >.........< 000009 $ od -Ax -tx1z eucjp.txt 000000 a5 ec a5 b6 a1 bc >......< 000006 $ python temp.py < eucjp.txt > ret.txt euc_jp $ od -Ax -tx1z ret.txt 000000 e3 83 ac e3 82 b6 e3 83 bc >.........< 000009 $ od -Ax -tx1z sjis.txt 000000 83 8c 83 55 81 5b >...U.[< 000006 $ python temp.py < sjis.txt > ret.txt shift_jis $ od -Ax -tx1z ret.txt 000000 e3 83 ac e3 82 b6 e3 83 bc >.........< 000009 ```

以下、以前の回答

関連した質問