Unicodeエスケープシーケンスを変換したい

Question

### 実現したいこと取得した文字列をデコードしたい。 ### 生じている問題スクレイピングによって取得した文字列がUnicodeエスケープシーケンスで記述されており、これをデコードするためのコードを実行したところエラーが表示されました。 ### 当該のソースコード ```Python3.10.1 mport stweet as st def try_serch(): search_tweets_task = st.SearchTweetsTask(all_words = "検索ワード") output_jl_tweets = st.JsonLineFileRawOutput('data.txt') output_print = st.PrintRawOutput() st.TweetSearchRunner(search_tweets_task=search_tweets_task, tweet_raw_data_outputs=[output_print, output_jl_tweets], user_raw_data_outputs=[]).run() if __name__ == "__main__": try_serch() ``` ```Python3.10.1 source = open('data.txt','r') out = open('data_decoded.txt','w') for row in source: new = row.encode().decode('unicode-escape') out.write(new) source.close() out.close() ``` ### エラー utf-8変換前 ``` Traceback (most recent call last): File "c:\VSCode\Source\Python\Scraping\Encoder.py", line 6, in out.write(new) UnicodeEncodeError: 'cp932' codec can't encode character '\ud83d' in position 266: illegal multibyte sequence ``` 変換後 ``` Traceback (most recent call last): File "c:\VSCode\Source\Python\Scraping\Encoder.py", line 6, in out.write(new) UnicodeEncodeError: 'utf-8' codec can't encode characters in position 266-267: surrogates not allowed ``` ### 作成されたテキストファイルの変換したい部分 ```ここに言語を入力 "full_text" : "\u3053\u308C\u306F\u30C6\u30B9\u30C8" ``` このような記述がされており、その一部分である\ud83dが引っかかったようです。 ### 特に分からないこと utf-8とcp932の食い違いであるということは記事を読んで理解できました。そのためファイルの読み書き時にutf-8でコーディングを行ってみましたが上手く動きません。どこを見落としているのでしょうか？ ```Python source = open('data.txt','r',encoding='utf-8') out = open('data_decoded.txt','w',encoding='utf-8') ``` 至らない点が多々あると思いますが、ご回答よろしくお願いします。

Accepted Answer

``` >>> '🙏' '🙏' >>> len('🙏') 1 ``` という顔文字があります。長さ1の文字列ですね。 ``` >>> '🙏'.encode('unicode-escape') b'\U0001f64f' ``` コードポイントはU+U0001f64f で、16ビットの範囲を超えている、Unicodeの追加漢字面に属する文字です。 ``` >>> '🙏'.encode('utf-16-be') b'\xd8=\xdeO' ``` これをUTF-16で表現すると4バイトになります。UTF-16に追加されたサロゲートペアを使った符号化がされます。もうちょっと見やすくしましょう。 ``` >>> ' '.join(map(lambda x: hex(x)[2:], '🙏'.encode('utf-16-be'))) 'd8 3d de 4f' ``` d8 3d が表れました。今エラーになっている原因のUnicodeエスケープ表現はサロゲートペアの**かたわれ**の部分なのです。 ``` >>> '\ud83d\ude4f' '\ud83d\ude4f' >>> len('\ud83d\ude4f') 2 >>> b'\ud83d\ude4f'.decode('unicode-escape') == '\ud83d\ude4f' True >>> '\ud83d\ude4f' == '🙏' False ``` 間違って(?)表現された`b'\ud83d\ude4f'` というバイト列（テキストエディタで`\ud83d\ude4f`と見える部分）を、unicode-escapeでdecodeすると、長さ2の文字列になります。元々表現しようとしていた文字列とも別のものです。これはサロゲートペアを別々に扱ったみたいな形になっていて、つまり**不正**なシークエンスです。 ``` >>> '\ud83d\ude4f'.encode('cp932') Traceback (most recent call last): File "", line 1, in UnicodeEncodeError: 'cp932' codec can't encode character '\ud83d' in position 0: illegal multibyte sequence 'cp932' codec can't encode character '\ud83d' in position 0: illegal multibyte sequence >>> '\ud83d\ude4f'.encode('utf-8') Traceback (most recent call last): File "", line 1, in UnicodeEncodeError: 'utf-8' codec can't encode characters in position 0-1: surrogates not allowed 'utf-8' codec can't encode characters in position 0-1: surrogates not allowed ``` だから、cp932に原理的にencodeできない(=illegal multibyte sequence)だけでなく、UTF-8にもencodeできません(=surrogates not allowed)。 ``` >>> '\ud83d\ude4f'.encode('utf-16', 'surrogatepass').decode('utf-16') '🙏' ``` "サロゲートペアのかたわれを拒絶しない"ハンドラ付きutf-16でencodeして、decodeするという[イディオムがある](https://stackoverflow.com/questions/38147259/how-can-i-convert-surrogate-pairs-to-normal-string-in-python)ようです。これで回避するか、encode時に`errors='ignore'`指定してエラーを[全部無視する](https://docs.python.org/ja/3/library/codecs.html#error-handlers)とかで対応することになるでしょうか。