word2vec 分散表現　リストから　PCファイルに保存する

PCで名詞のみかつリスト化された文章から分散表現取得

gensim のword2vecを使用し、分散表現はPC にファイルとして保存したいです。
mecabを使い名詞のみリスト化された文章を使いたいです。

python3
1from pymongo import MongoClient
2from bs4 import BeautifulSoup
3import MeCab
4mecab = MeCab.Tagger ('/usr/local/lib/mecab/dic/mecab-ipadic-neologd')
5def main():
6    recipes = []
7    client = MongoClient('localhost', 27017)
8    db = client.html.cookpad_html
9    collection = db.test_collection
10    htmls = list(db.find().limit(1))
11    recipes = []
12    for num, html in enumerate(htmls):
13        soup = BeautifulSoup(html["html"], 'lxml')
14        for steps in soup.find_all(attrs={"class": "step_text"}):
15            node = mecab.parseToNode(steps.get_text())     
16            
17            while node:
18                if node.feature.split(",")[0] == '名詞':
19                    recipes.append(node.feature.split(",")[6])
20                node = node.next 
21                recipes = list(set(recipes))
22    print(recipes)
23
24if __name__ == '__main__':
25    main()
26    
27text = 'main()'
28file = open('text_file_name.txt', 'w')
29file.write(text)
30file.close()
31
32from janome.tokenizer import Tokenizer
33from gensim.models import word2vec
34# 単語の分かち書き＆スペースで区切る
35
36import codecs
37
38text_space = ""
39t = Tokenizer()
40with codecs.open('text_file_name.txt', 'r', 'utf-8') as f:
41    txt = f.read()
42for token in t.tokenize(txt, stream=True):
43    text_space += token.surface
44    text_space += " "
45# ファイル書き込み
46with codecs.open('wakachigaki_file_name.txt', 'w', 'utf-8') as file:
47    file.write(text_space)
48# Word2vecのモデルの作成
49sentences = word2vec.LineSentence('wakachigaki_file_name.txt')
50model = word2vec.Word2Vec(sentences,
51              sg=1,
52              size=100,
53              min_count=1,
54              window=10,
55              hs=1,
56              negative=0)
57model.save('model_name.model')
58# モデルの読み込みと類義語の計算
59model = word2vec.Word2Vec.load("model_name.model")
60
61
62        
63model.most_similar(positive="単語", topn=10)

"word '単語' not in vocabulary" とエラー文が出たきました。

https://lib-arts.hatenablog.com/entry/nlp_tutorial3

このサイトを参考にしました。
どうすればいいのか分からないので教えて下さい。

dice142

2019/09/27 04:58

ファイルの保存がわからないのかと思いましたが、質問文を読むとデータの読み込みがわからないように読めます。どちらなのですか？

kawauso.love

2019/09/27 05:10

どちらも分からないです！！！上のスクリプトは例で、二番目のスクリプトのword2vecで名詞のみかつリスト化された文章から分散表現取得したいです。

KojiDoi

2019/09/27 06:38

マニュアルを見ればまんま書いてありますよ。

kawauso.love

2019/09/30 05:48

ありがとうございます。やってみます！！！

行動規範の内容に同意します

回答1件

２番目のスクリプトの最後の行のprint(recipes)をtext_file_name.txtへの書き込みに変えるだけですむのでは……。

投稿2019/09/27 04:53

KojiDoi

総合スコア13671

kawauso.love

2019/09/27 05:11

回答ありがとうございます！！！意味は、分かったんですけど、ちょっとどうやってコードで書けばいいのか分からないのでコードを送っていただけると嬉しいです。

siruku6

2019/09/27 11:29 編集

KojiDoiさんの方法だと、こんな感じでしょうか https://blog.codecamp.jp/python-file-data 大分わかりやすく書かれていますこのくらいなら、回答を待つよりも自分で調べちゃった方が早く終わると思います。今回なら、 python ファイル保存とか python ファイル書き出すとかですぐに出てきます。 ■補足 pythonでたくさんのデータをファイルに書きこむ予定があるのであれば、早いうちにpandasを覚えてしまうとよいと思います。 pandas だとかなり便利にファイル読み書きできますので。

kawauso.love

2019/09/30 05:47

ありがとうございます。やってみます！！！

行動規範の内容に同意します