質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Unicode

Unicodeはエンコーディングの標準規格です。1つの文字コード体系で多国語の表現を可能にすることを目指して作られています。

Q&A

解決済

3回答

1773閲覧

cp932 UnicodeDecodeError の解決法

Hazz

総合スコア2

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Unicode

Unicodeはエンコーディングの標準規格です。1つの文字コード体系で多国語の表現を可能にすることを目指して作られています。

0グッド

0クリップ

投稿2022/01/31 02:21

前提・実現したいこと

ここに質問の内容を詳しく書いてください。
Pythonでテキストマイニングをしようとしています。
形態素解析を実装中に以下のエラーメッセージが発生しました。

発生している問題・エラーメッセージ

UnicodeEncodeError: 'cp932' codec can't encode character '\ufeff' in position 0: illegal multibyte sequence

該当のソースコード

----> 7 df_word_freq = fma.get_word_freq_from_document(file_doc='***.csv',pos=pos) ----------------------------------------------------------------------------------------------------- ~\:******\*****.py in get_word_freq_from_document(file_doc, pos)    76 with open(file_doc, encoding='utf-8_sig') as data_file, open(file_parsed, mode='w') as out_file: 77 mecab = MeCab.Tagger() ---> 78 out_file.write(mecab.parse(data_file.read()))

試したこと

encoding='utf-8'と書いても encoding='utf-8_sig'と書いても同じエラーが起こってしまいます。

補足情報(FW/ツールのバージョンなど)

anaconda3
jupyter Notebook 6.3.0

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

ベストアンサー

出力時のエンコーディングにcp932が採用されて提示エラーが発生しているようです。
出力ファイル側にも`utf-8'なりのエンコーディングを指定してください。

投稿2022/01/31 02:39

can110

総合スコア38266

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

utf-8_sigでも「'\ufeff' in position 0」になるということでしょうか。
不思議ですが、さしあたり当該ファイルをBOM無しUTF-8で保存し直してはどうでしょう。

投稿2022/01/31 04:52

ikadzuchi

総合スコア3047

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

投稿2022/01/31 02:22

horiegom

総合スコア152

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問