Shift-JIS - Unicode 間の文字化けについて

Question

# 実現したいこと

UTF-8のデータが保存されたDBからレコードを取得し、Shift-JISでCSVに書き込み、出力したい。

# 困っていること

データの量が膨大なため、CSVを複数ファイルに分割して出力しているのですが、時々
`'shift_jis' codec can't encode character '\u3396' in position XXX: illegal multibyte sequence`
のようなエラーが出てCSVの作成に失敗します。
その都度、Pythonの出力部ではDBから取得したデータに対して`.replace('\u3396', '\uXZXZ')`のような変換処理をかませているのですが、この調子だとUnicode -> Shift_JISの全ての変換不能文字について上記のようなリプレイス処理を追記することになってしまい、あまりスマートでは無くなってしまうことを懸念しています。

UTF-8 から Shift-JIS に変換しつつ大量のデータを出力する場合、変換不能文字について上記のように代替となる文字に変換する以外に最適な対応策などありますでしょうか。また、代替文字に置き換える方法をとる場合、スマートな実装などあればご教示いただきたいです。

ご助力いただけると幸いです。
よろしくお願いします。

Accepted Answer

コードが不明なので一般的な方法として回答します。
ある文字が対象のエンコーディングで表現できない場合にどのように処理するかを指定できます。

[Python の Unicode サポート](https://docs.python.org/ja/3/howto/unicode.html#python-s-unicode-support)

> errors 引数は、入力文字列に対しエンコーディングルールに従った変換ができなかったときの対応方法を指定します。この引数に使える値は 'strict' (UnicodeDecodeError を送出する)、 'replace' (REPLACEMENT CHARACTER である U+FFFD を使う)、 'ignore' (結果となる Unicode から単に文字を除く) 、'backslashreplace' (エスケープシーケンス \xNN を挿入する) です。

これらのいずれか目的にあったものを指定すればよいかと思います。
以下、各指定した結果です。
```Python
for e in ['replace', 'ignore', 'backslashreplace']:
    s = '????野家'
    b = s.encode('shift_jis', errors = e)
    s = b.decode('shift_jis')
    print(s)

# ?野家
# 野家
# \U00020bb7野家
```

Answer

shiftjisにない文字は予め「&#x3396;」などの文字に変えておくことです

Answer

https://qiita.com/vh5150/items/43ad779f993de9a1c163

もしwindowsで利用されるのであれば、文字コードをcp932にしてみたらどうでしょうか。

実現したいこと

困っていること

関連した質問