mecabで名詞のみかつリストで抽出してみたんですけど、
python3
1from pymongo import MongoClient 2from bs4 import BeautifulSoup 3import MeCab 4mecab = MeCab.Tagger ('/usr/local/lib/mecab/dic/mecab-ipadic-neologd') 5def main(): 6 recipes = [] 7 client = MongoClient('localhost', 27017) 8 db = client.html.cookpad_html 9 collection = db.test_collection 10 htmls = list(db.find().limit(1)) 11 recipes = [] 12 for num, html in enumerate(htmls): 13 soup = BeautifulSoup(html["html"], 'lxml') 14 for steps in soup.find_all(attrs={"class": "step_text"}): 15 node = mecab.parseToNode(steps.get_text()) 16 17 while node: 18 if node.feature.split(",")[0] == '名詞': 19 recipes.append(node.feature.split(",")[6]) 20 node = node.next 21 recipes = list(set(recipes)) 22 print(recipes) 23 24if __name__ == '__main__': 25 main()
この結果が、['0', '汁', 'オリーブ油', 'ツノ', '6', '分', 'ラップ', '*', '生地', '加熱', '3', '卵黄', '玉子', 'おから', 'ヨーグルト', 'レンジ', '4', '塗布', '卵白', 'レモン', 'ボウル', 'ハチミツ']
となり、0、6、3、4などの数字が入っています。
一般の名詞だけ取り出したいです。
どうすればいいか教えて下さい!!!!
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/10/08 06:10
2019/10/10 05:52
2019/10/10 06:03
2019/10/10 06:07