word2vecで名詞のみかつリスト化された文章から分散表現取得したいです。
一般名詞だけだしたいのですが、'*'が入ってしまいます。
python3
1from pymongo import MongoClient 2from bs4 import BeautifulSoup 3import MeCab 4mecab = MeCab.Tagger ('/usr/local/lib/mecab/dic/mecab-ipadic-neologd') 5def main(): 6 recipes = [] 7 client = MongoClient('localhost', 27017) 8 db = client.html.cookpad_html 9 collection = db.test_collection 10 htmls = list(db.find().limit(1)) 11 recipes = [] 12 for num, html in enumerate(htmls): 13 soup = BeautifulSoup(html["html"], 'lxml') 14 for steps in soup.find_all(attrs={"class": "step_text"}): 15 node = mecab.parseToNode(steps.get_text()) 16 17 while node: 18 feature = node.feature.split(",") 19 if feature[0] == "名詞" and feature[1] == "一般": 20 21 recipes.append(node.feature.split(",")[6]) 22 node = node.next 23 recipes = list(set(recipes)) 24 print(recipes) 25 26if __name__ == '__main__': 27 main()
結果
['*', 'レンジ', '生地', 'ボウル', 'おから', 'ヨーグルト', 'ラップ', 'オリーブ油', 'ハチミツ', '卵黄', 'レモン', '玉子', 'ツノ', '卵白']
と出ます。''がいらないので、’’を無くしたいです。
今日中に、誰かコードを教えてくれると助かります!!
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/10/14 08:08
2019/10/14 08:14 編集
2019/10/14 08:18