文字化けしたファイルを直したい

実現したいこと

メールで受け取ったファイルが文字化けしている。（日本語と英語のファイルで日本語部分が文字化け）
文字コード:ANSI
→ Notepad++ でutf-8（bom付き）に変換し文字化けをなおす
→その他諸々の処理

この一連をPythonで自動化したいです。
後半の諸々処理はいけるのですが、文字化けを直す工程はそもそもPythonでも可能でしょうか？

発生している問題・エラーメッセージ

df = pd.read_csv("test.csv", encoding="utf_8_sig")

utfに対してunicode decode errorが出ます

melian

2023/02/03 12:06

ANSI なので、encoding は cp932 ではないでしょうか。 df = pd.read_csv("test.csv", encoding="cp932")

meg_

2023/02/03 13:38

> df = pd.read_csv("test.csv", encoding="utf_8_sig") > utfに対してunicode decode errorが出ます test.csvはutf-8（bom付き）ではないことを表しています。 > メールで受け取ったファイルが文字化けしている。上記はファイルをどうした際に「文字化けしている」となったのでしょうか？

TakaiY

2023/02/03 13:50

上のみなさんと同じ質問ですが。・「メールで受け取ったファイル」を読めるように開くときの文字コードは何ですか？もしくは、どのように開くと読めますか。・「Notepad++ でutf-8（bom付き）に変換し文字化けをなおす」とありますが、そのときの状況と操作を教えてください。 Notepad++でどのように開いて、どのように表示されましたか。「変換して文字化けをなおす」というのはどのような操作をしましたか。

退会済みユーザー

2023/02/03 13:57 編集

cp932試してみます。受け取ったファイルを、csvで開いた際に文字化けしております。文字コードANSIとなっていました。それを直してから列名変更など加工したいのです。仕事の依頼で「Notepad++で変換している」としか聞いておりませんでした。私が行なっているものではなく。この情報では無理があるでしょうか。。

TakaiY

2023/02/03 13:59 編集

「csvで開いた際に文字化けしております。文字コードANSIとなっていました。」というのは、何を使って開いていますか？ Notepad++ ですか？自分で開いたものではないのですか？その対象ファイルは入手できませんか？入手できなければpythonで処理する方法をみつけるのも困難だと思います。

退会済みユーザー

2023/02/03 14:01 編集

添付されているデータがcsvになっているのでそのままエクセルでcsvを開いた際に文字化けしております。ファイルそのものはあります。メモ帳で開き直した際に右下にANSIとありました。

TakaiY

2023/02/03 14:16 編集

そのファイルをエクセルでなく、たとえばNotepad++で開いて、文字化けせずに開けたときに、右下に文字コードが表示されていますので、それを調べてください。多くのCSVはExcelで開くと文字化けします。結局は、その対象ファイルの文字コードがわかれば、pythonで変換することができるということです。

退会済みユーザー

2023/02/03 14:08

なるほど…！ありがとうございます。今すぐ作業に入れないのですが試してみます。

meg_

2023/02/03 15:15

> 添付されているデータがcsvになっているのでそのままエクセルでcsvを開いた際に文字化けしております。 Windowsの場合、ダブルクリックで開くと上記の状況となって困っているという質問をよく見かけます。文字化けする場合は、データタブの「データの取得と変換」の「テキストまたはCSVから」を選択すると開くことができます。そのときに文字コードも確認できるかと思いますので、それを指定してPythonで開けば良いかと思います。

退会済みユーザー

2023/02/11 13:29

無事解決いたしました！ありがとうございました！

行動規範の内容に同意します

回答2件

ベストアンサー

文字コードがANSIであるCSVファイルを、Notepad++ で「utf-8（bom付き）」に変換している処理をPythonで行いたいわけですね。

日本語版のWindowsでは、ANSIはCP932という文字コードです。（これは簡易的な説明です。）

追記 : CP932は、Shift_JISという文字コードを少しだけ拡張したものです。ここでは違いを考慮する必要はないと思われるため、CP932をShift_JISと読み替えてもらってもかまいません。また、Windowsでは、CP932をShift_JISと表示することがあります。

したがって、csvをCP932として開き、UTF-8(BOM付き)として保存すればよいだけです。

Python
1# pandasライブラリでの例
2
3df = pd.read_csv("test.csv", encoding="cp932")
4
5# 処理...
6
7df.to_csv('test.csv',  encoding="utf_8_sig")
8

ただ、エクセルでcsvを開いた際に文字化けしているというのはおかしいです。
文字化けは主に間違った文字コードで読むことで発生します。
Excelでは、日本語は主にCP932または、UTF-8(BOM付き)で読むため、CP932のファイルは文字化けせずに読めるはずです。
本当にcsvの文字コードが、ANSI(CP932)かどうかを確かめる必要があると思います。
上記のコードでは、csvの文字コードがCP932でなければ、エラーが起きるか、正しく読めません。

文字化けしないで読みこめた時の文字コードが、正しい文字コードです。
「添付されているデータがcsvになっているのでそのままエクセルでcsvを開いた際に文字化けしております。
メモ帳で開き直した際に右下にANSIとありました。」
とありますが、メモ帳で開いた時文字化けしていれば、ANSIは正しい文字コードではないと思います。

よくある例として、Excelでは、UTF-8(BOM無し)のファイルを読み込むと文字化けします。
その場合、以下のようにするとよいと思います。

Python
1# pandasライブラリでの例
2
3df = pd.read_csv("test.csv", encoding="utf_8")
4
5# 処理...
6
7df.to_csv('test.csv',  encoding="utf_8_sig")
8# または
9df.to_csv('test.csv',  encoding="cp932")
10