pythonでUnicodeDecodeErrorを解決したい。

回答率: 85.48%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.48%

トップ Windowsに関する質問

Q&A

解決済

2回答

5675閲覧

pythonでUnicodeDecodeErrorを解決したい。

総合スコア20

0グッド

0クリップ

投稿2018/10/26 06:25

編集2018/10/26 06:49

0

0

前提・実現したいこと

pythonでword2vecを使いたく、自分でtwitterからとってきたツイートをcsvファイルに入れて、それをword2vecに通したいのですが、下記のソースコードを実行したとき以下のエラーメッセージが発生しました。

発生している問題・エラーメッセージ

(base) C:\jikken>python genModel.py
C:\Anaconda\lib\site-packages\gensim\utils.py:1212: UserWarning: detected Windows; aliasing chunkize to chunkize_serial
  warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")
Traceback (most recent call last):
  File "genModel.py", line 5, in <module>
    model = word2vec.Word2Vec(data, size=200)
  File "C:\Anaconda\lib\site-packages\gensim\models\word2vec.py", line 767, in __init__
    fast_version=FAST_VERSION)
  File "C:\Anaconda\lib\site-packages\gensim\models\base_any2vec.py", line 759, in __init__
    self.build_vocab(sentences=sentences, corpus_file=corpus_file, trim_rule=trim_rule)
  File "C:\Anaconda\lib\site-packages\gensim\models\base_any2vec.py", line 936, in build_vocab
    sentences=sentences, corpus_file=corpus_file, progress_per=progress_per, trim_rule=trim_rule)
  File "C:\Anaconda\lib\site-packages\gensim\models\word2vec.py", line 1571, in scan_vocab
    total_words, corpus_count = self._scan_vocab(sentences, progress_per, trim_rule)
  File "C:\Anaconda\lib\site-packages\gensim\models\word2vec.py", line 1540, in _scan_vocab
    for sentence_no, sentence in enumerate(sentences):
  File "C:\Anaconda\lib\site-packages\gensim\models\word2vec.py", line 1363, in __iter__
    text = rest + fin.read(8192)  # avoid loading the entire file (=1 line) into RAM
UnicodeDecodeError: 'cp932' codec can't decode byte 0xef in position 0: illegal multibyte sequence

該当のソースコード

python
1#coding: UTF-8
2from gensim.models import word2vec
3with open("tweet.csv", "r") as csv_file:
4    data = word2vec.Text8Corpus(csv_file)
5    model = word2vec.Word2Vec(data, size=200)

試したこと

3行目を
with open("tweet.csv", "r", encoding = 'utf-8') as csv_file:
に変えて試してみたが、
TypeError: can't concat str to bytes
というエラーがでてできなかった。

補足情報（FW/ツールのバージョンなど）

tweet.csvは文字コードをutf-8で保存してあります。
また、csvファイルの中身はすべて日本語のツイートのみです。

行動規範の内容に同意します

回答2件

0

ベストアンサー

BOMつきUTF-8というのもあります。encoding = 'utf_8_sig'も試してください。

投稿2018/10/26 06:36

編集2018/10/26 06:36

総合スコア30933

2018/10/26 06:38

同じTypeErrorが出てしまいました。

2018/10/26 06:39

もしかしてpython2を使っていますか？

2018/10/26 06:42

確認したところ、python3.6.4でした

2018/10/26 06:43 編集

エラーを全文掲載してください。長くなると思うので質問文の方に追記で

2018/10/26 06:49

全文掲載させていただきました。

2018/10/26 06:51

文字コードの問題ではなく、使い方が間違っているようです。Text8Corpusの第一引数は「ファイル名」を指定してください（ファイルオブジェクトではなく）

2018/10/26 06:59

無事動かすことに成功しました！ありがとうございましたm(_ _)m

行動規範の内容に同意します

0

本当に文字コードがUTF8かどうかチェックしてみては。
ShiftJISだったりしませんか？

投稿2018/10/26 06:27

総合スコア87747

2018/10/26 06:35

ファイルを編集し、「名前をつけて保存する」から文字コードをutf-8を指定して保存したのでutf-8になっているはずなのですが...

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ Windowsに関する質問

pythonでUnicodeDecodeErrorを解決したい。

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【重要なお知らせ】いつもteratailをご利用いただきありがとうございます。現在、認証システムの修正により、一部のユーザーが強制的にログアウトされる可能性がございます。お手数おかけしますが、再度ログインを行なっていただきますよう宜しくお願いいたします。ご不便をおかけし申し訳ございません。

過去のお知らせを見る