stopwordをまとめたtxtファイルを読み込むことができない
現在、tf-idf作成にあたって、余分な単語を除くstopwordを設定しています。そのstopwordに用意されているものに加えて、自分で作成したstopwordのtxtファイルを読み込みたいのですが、このtxtファイルがutf-8のためか読み込んでくれません。
ignoreやencoding等を試したのですが、効果はありませんでした。毎回以下のようなエラーがはかれます。
発生している問題・エラーメッセージ
UnicodeDecodeError Traceback (most recent call last) <ipython-input-26-1017f3d29a7e> in <module> ----> 1 set_stopwords() <ipython-input-25-33abca064748> in set_stopwords() 17 # add stop_word from text file 18 f = open('more_stopword.txt') ---> 19 txt_file = f.readlines() 20 f.close() 21 more_stopwords = [line.strip() for line in txt_file] ~/opt/anaconda3/lib/python3.8/codecs.py in decode(self, input, final) 320 # decode input (taking the buffer into account) 321 data = self.buffer + input --> 322 (result, consumed) = self._buffer_decode(data, self.errors, final) 323 # keep undecoded input until the next call 324 self.buffer = data[consumed:] UnicodeDecodeError: 'utf-8' codec can't decode byte 0x83 in position 0: invalid start byte
該当のソースコード
python
1import urllib 2import codecs 3 4# ストップワードの設定を行う関数を定義。今回はローカルのtxtファイルから設定できるようにした。 5def set_stopwords(): 6 """ 7 Get stopwords from input document. 8 """ 9 # Defined by SlpothLib 10 slothlib_path = 'http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt' 11 slothlib_file = urllib.request.urlopen(slothlib_path) 12 slothlib_stopwords = [line.decode("utf-8").strip() for line in slothlib_file] 13 slothlib_stopwords = [ss for ss in slothlib_stopwords if not ss==u''] 14 15 stopwords_list = [] 16 17 # add stop_word from text file 18 f = open('more_stopword.txt') 19 txt_file = f.readlines() 20 f.close() 21 more_stopwords = [line.strip() for line in txt_file] 22 more_stopwords = [ss for ss in more_stopwords if not ss==u''] 23 stopwords_list += more_stopwords 24 25 # Merge and drop duplication 26 stopwords_list += slothlib_stopwords 27 stopwords_list = set(stopwords_list) 28 29 return stopwords_list
補足情報
IDEはjupyter notebookを使っています。
基本的な質問だと思いますが、ご助力をお願いします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2021/05/20 21:24
2021/05/20 23:13
退会済みユーザー
2021/05/21 05:13
2021/05/21 06:48
退会済みユーザー
2021/05/21 07:04