cp932 UnicodeDecodeError　の解決法

前提・実現したいこと

ここに質問の内容を詳しく書いてください。
Pythonでテキストマイニングをしようとしています。
形態素解析を実装中に以下のエラーメッセージが発生しました。

発生している問題・エラーメッセージ

UnicodeEncodeError: 'cp932' codec can't encode character '\ufeff' in position 0: illegal multibyte sequence

該当のソースコード

----> 7 df_word_freq = fma.get_word_freq_from_document(file_doc='***.csv',pos=pos)
-----------------------------------------------------------------------------------------------------
~\:******\*****.py in get_word_freq_from_document(file_doc, pos)
　　 76     with open(file_doc, encoding='utf-8_sig') as data_file,  open(file_parsed, mode='w') as out_file:
     77         mecab = MeCab.Tagger()
---> 78         out_file.write(mecab.parse(data_file.read()))

試したこと

encoding='utf-8'と書いても encoding='utf-8_sig'と書いても同じエラーが起こってしまいます。

補足情報（FW/ツールのバージョンなど）

anaconda3
jupyter Notebook 6.3.0

行動規範の内容に同意します

回答3件

ベストアンサー

出力時のエンコーディングにcp932が採用されて提示エラーが発生しているようです。
出力ファイル側にも`utf-8'なりのエンコーディングを指定してください。

投稿2022/01/31 02:39

8524ba23

総合スコア38352

utf-8_sigでも「'\ufeff' in position 0」になるということでしょうか。
不思議ですが、さしあたり当該ファイルをBOM無しUTF-8で保存し直してはどうでしょう。

投稿2022/01/31 04:52

ikadzuchi

総合スコア3047

https://kazusa-pg.com/python-detect-character-code/

投稿2022/01/31 02:22

jckkvs

総合スコア152

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！