pythonで辞書による方法でストップワードを除去したいのですが、エラーらしきものが出てきました
pythonインタプリタで実行しましたが、文字も表示されません。
この下記のサイトによりjapan.txtで任意の名前を付けて、open関数でファイルを開き
改行記号を残さないためにstripメソッドを用いています。
japan.txtは,Slothlibのテキストページをクリックしてtxtファイルに保存しました。
https://testpy.hatenablog.com/entry/2016/10/05/004949
#実行環境
Python 3.7.3 (default, Apr 24 2019, 15:29:51) [MSC v.1915 64 bit (AMD64)] :: Anaconda, Inc. on win32
#プログラムコード
python
1with open('japan.txt','r',encoding='utf-8')as f: 2 stopwords =[w.strip() for w in f] 3 stopwords =set(stopwords) 4
そこでjapan.txtに含まれる日本語を除去する関数remove_stopwordsを定義します。
python
1def remove_stopwords(words,stopwords): 2 words =[w for w in words if w not in stopwords] 3 return words
japan.txtには 「いくつ」という単語がありますので除去することができるはずなのですが、エラーらしきものが出てしまいます。
python
1from janome .tokenizer import Tokenizer 2t =Tokenizer(wakati =True) 3text='リンゴをいくつか買う' 4words =t.tokenize(text) 5words 6
#エラーらしきもの
このgeneraterのエラーの意味を調べてみましたが、有効的なな手段がなく、困っています。どうかご協力をお願いします
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/09/27 09:03