質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.37%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Unicode

Unicodeはエンコーディングの標準規格です。1つの文字コード体系で多国語の表現を可能にすることを目指して作られています。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

3回答

8462閲覧

Shift-JIS - Unicode 間の文字化けについて

zvub1123

総合スコア230

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Unicode

Unicodeはエンコーディングの標準規格です。1つの文字コード体系で多国語の表現を可能にすることを目指して作られています。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

2クリップ

投稿2020/08/11 01:48

実現したいこと

UTF-8のデータが保存されたDBからレコードを取得し、Shift-JISでCSVに書き込み、出力したい。

困っていること

データの量が膨大なため、CSVを複数ファイルに分割して出力しているのですが、時々
'shift_jis' codec can't encode character '\u3396' in position XXX: illegal multibyte sequence
のようなエラーが出てCSVの作成に失敗します。
その都度、Pythonの出力部ではDBから取得したデータに対して.replace('\u3396', '\uXZXZ')のような変換処理をかませているのですが、この調子だとUnicode -> Shift_JISの全ての変換不能文字について上記のようなリプレイス処理を追記することになってしまい、あまりスマートでは無くなってしまうことを懸念しています。

UTF-8 から Shift-JIS に変換しつつ大量のデータを出力する場合、変換不能文字について上記のように代替となる文字に変換する以外に最適な対応策などありますでしょうか。また、代替文字に置き換える方法をとる場合、スマートな実装などあればご教示いただきたいです。

ご助力いただけると幸いです。
よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

ベストアンサー

コードが不明なので一般的な方法として回答します。
ある文字が対象のエンコーディングで表現できない場合にどのように処理するかを指定できます。

Python の Unicode サポート

errors 引数は、入力文字列に対しエンコーディングルールに従った変換ができなかったときの対応方法を指定します。この引数に使える値は 'strict' (UnicodeDecodeError を送出する)、 'replace' (REPLACEMENT CHARACTER である U+FFFD を使う)、 'ignore' (結果となる Unicode から単に文字を除く) 、'backslashreplace' (エスケープシーケンス \xNN を挿入する) です。

これらのいずれか目的にあったものを指定すればよいかと思います。
以下、各指定した結果です。

Python

1for e in ['replace', 'ignore', 'backslashreplace']: 2 s = '????野家' 3 b = s.encode('shift_jis', errors = e) 4 s = b.decode('shift_jis') 5 print(s) 6 7# ?野家 8# 野家 9# \U00020bb7野家

投稿2020/08/11 02:21

can110

総合スコア38339

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

zvub1123

2020/08/12 07:13

ご回答ありがとうございました。 イメージしていた対応が出来そうです。errors引数というものがあったのですね。ありがとうございます。
guest

0

shiftjisにない文字は予め「㎖」などの文字に変えておくことです

投稿2020/08/11 02:26

yambejp

総合スコア116443

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

zvub1123

2020/08/12 07:09

ご回答ありがとうございました。\u3396に限らず、まだ未知の変換不能文字が潜んでいるであろう大量のデータに対して変換処理を一括で行う、というのが前提だったのですが、その旨を上手く記載できておりませんでした、すみません。
guest

0

https://qiita.com/vh5150/items/43ad779f993de9a1c163

もしwindowsで利用されるのであれば、文字コードをcp932にしてみたらどうでしょうか。

投稿2020/08/11 02:24

YuichiSato

総合スコア157

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ikadzuchi

2020/08/11 14:42

例にCP932に含まれない「\u3396」が挙がっているのを見るに、CP932とShift_JISの差で問題が発生しているわけではないようです。
zvub1123

2020/08/12 07:12

ご回答ありがとうございます。 CP932にする案はあったのですが、諸々の都合上Shift_JISで出力せざるを得なかったため、UTF-8からの変換不能文字が多く、対応に困っていたという状況でした。その旨うまく記載できておらずすみません。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.37%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問