一般名詞だけだしたい　python

word2vecで名詞のみかつリスト化された文章から分散表現取得したいです。
一般名詞だけだしたいのですが、'*'が入ってしまいます。

python3
1from pymongo import MongoClient
2from bs4 import BeautifulSoup
3import MeCab
4mecab = MeCab.Tagger ('/usr/local/lib/mecab/dic/mecab-ipadic-neologd')
5def main():
6    recipes = []
7    client = MongoClient('localhost', 27017)
8    db = client.html.cookpad_html
9    collection = db.test_collection
10    htmls = list(db.find().limit(1))
11    recipes = []
12    for num, html in enumerate(htmls):
13        soup = BeautifulSoup(html["html"], 'lxml')
14        for steps in soup.find_all(attrs={"class": "step_text"}):
15            node = mecab.parseToNode(steps.get_text())     
16            
17            while node:
18                feature = node.feature.split(",")
19                if feature[0] == "名詞" and feature[1] == "一般":
20 
21                    recipes.append(node.feature.split(",")[6])
22                node = node.next 
23                recipes = list(set(recipes))
24    print(recipes)
25
26if __name__ == '__main__':
27    main()

結果
['*', 'レンジ', '生地', 'ボウル', 'おから', 'ヨーグルト', 'ラップ', 'オリーブ油', 'ハチミツ', '卵黄', 'レモン', '玉子', 'ツノ', '卵白']

と出ます。''がいらないので、’’を無くしたいです。
今日中に、誰かコードを教えてくれると助かります！！

行動規範の内容に同意します

回答1件

ベストアンサー

私の以前のコメントが参考にならなかったでしょうか。

hayataka2049
2019/10/10 15:03

原型の情報がないのでしょう。*のときはsurfaceを取得するようなコードを書けばよいかと思います。忙しいのでコードは割愛させていただきます。
Python - mecabで名詞のみかつリスト　一般名詞だけ取り出したい｜teratail

投稿2019/10/14 07:56

hayataka2049

総合スコア30933

kawauso.love

2019/10/14 08:08

ありがとうございます！意味は分かったんですけど、コードが書けなくて、今日中に終わらせなきゃいけなかったので、コード丸ごと教えて欲しいです！図々しくてすみません

hayataka2049

2019/10/14 08:14 編集

if以下のところを word = node.feature.split(",")[6] recipes.append(node.surface if word == "*" else word) 次から自分でやるか、せめてリアルの身近な人に聞くようにしてください。図々しい人が増えると回答する側は困るし

kawauso.love

2019/10/14 08:18

すみません、ありがとうございます！

行動規範の内容に同意します