teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

2

エラー文の全文掲載

2018/10/26 06:49

投稿

kanpan
kanpan

スコア20

title CHANGED
File without changes
body CHANGED
@@ -5,7 +5,26 @@
5
5
  ### 発生している問題・エラーメッセージ
6
6
 
7
7
  ```
8
+ (base) C:\jikken>python genModel.py
9
+ C:\Anaconda\lib\site-packages\gensim\utils.py:1212: UserWarning: detected Windows; aliasing chunkize to chunkize_serial
10
+ warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")
11
+ Traceback (most recent call last):
12
+ File "genModel.py", line 5, in <module>
13
+ model = word2vec.Word2Vec(data, size=200)
14
+ File "C:\Anaconda\lib\site-packages\gensim\models\word2vec.py", line 767, in __init__
15
+ fast_version=FAST_VERSION)
16
+ File "C:\Anaconda\lib\site-packages\gensim\models\base_any2vec.py", line 759, in __init__
17
+ self.build_vocab(sentences=sentences, corpus_file=corpus_file, trim_rule=trim_rule)
18
+ File "C:\Anaconda\lib\site-packages\gensim\models\base_any2vec.py", line 936, in build_vocab
19
+ sentences=sentences, corpus_file=corpus_file, progress_per=progress_per, trim_rule=trim_rule)
20
+ File "C:\Anaconda\lib\site-packages\gensim\models\word2vec.py", line 1571, in scan_vocab
21
+ total_words, corpus_count = self._scan_vocab(sentences, progress_per, trim_rule)
22
+ File "C:\Anaconda\lib\site-packages\gensim\models\word2vec.py", line 1540, in _scan_vocab
23
+ for sentence_no, sentence in enumerate(sentences):
24
+ File "C:\Anaconda\lib\site-packages\gensim\models\word2vec.py", line 1363, in __iter__
25
+ text = rest + fin.read(8192) # avoid loading the entire file (=1 line) into RAM
8
26
  UnicodeDecodeError: 'cp932' codec can't decode byte 0xef in position 0: illegal multibyte sequence
27
+
9
28
  ```
10
29
 
11
30
  ### 該当のソースコード

1

追記

2018/10/26 06:48

投稿

kanpan
kanpan

スコア20

title CHANGED
File without changes
body CHANGED
@@ -27,4 +27,5 @@
27
27
  というエラーがでてできなかった。
28
28
  ### 補足情報(FW/ツールのバージョンなど)
29
29
 
30
- tweet.csvは文字コードをutf-8で保存してあります。
30
+ tweet.csvは文字コードをutf-8で保存してあります。
31
+ また、csvファイルの中身はすべて日本語のツイートのみです。