ある単語をWord2Vecで最も類似度の高い単語で置換したい

図1 ダイエットの類義語一覧

前提・実現したいこと

MeCabで文章を分かち書きして，Word2Vecを用いることである単語と最も類似度の高い単語を置換したい．

置換したい単語を難解語として変数selに入れます．その変数selと，Word2Vecの結果であるresultの中で最も類似度の高い単語を置換したいです．

（例）僕はダイエット中だ　→　僕は減量中だ

具体的には，Word2Vecを用いて類似語を抽出した後にその中で最も類似度の高い語を抽出する方法（図1の"減量"を抽出する方法）と単語の置換方法が分からないです．

該当のソースコード

Python
1from gensim.models import word2vec
2import csv
3import MeCab
4
5model = word2vec.Word2Vec.load("./wiki.model")
6
7dictB = {}
8
9m = MeCab.Tagger("-Owakati")
10print("分かち書きしたい文章")
11x = input()
12print("入力文：" ,x)
13word = m.parse(x).split()
14
15print("結果：" ,m.parse(x))
16
17with open('test.csv', mode="w") as f:
18    writer = csv.writer(f)
19    writer.writerow(word)
20
21with open('test2.csv') as fileB:
22    reader = csv.reader(fileB,delimiter=',')
23    for row in reader:
24        for sel in row:
25            dictB[sel] = True
26
27with open('test.csv') as fileA:
28    with open('word.csv', mode="w") as r:    //testとtest2を比べて，
29        reader = csv.reader(fileA,delimiter=',') //testにしかない単語（難解語）をword.csvに出力
30        writer = csv.writer(r)
31        for row in reader:
32            for sel in row:
33                if sel not in dictB:
34                    print("難解語：" ,sel)
35                    writer.writerow([sel])
36                    results = model.wv.most_similar(positive=[sel])
37                    for result in results:
38                        print(result)
39
40

補足情報（FW/ツールのバージョンなど）

Python3.7.1

can110

2018/11/20 05:18

現状で出来ているコードと具体的に何が分からない（MeCabで分かち書き方／Word2Vecの使い方／文字列の置換方法など）のかを追記ください

退会済みユーザー

2018/11/20 05:20

すみません，コードを載せ直しました．

can110

2018/11/22 04:39

コードから推測すると、置き換えた単語「減量」は標準出力に出すということでよいでしょうか？

退会済みユーザー

2018/11/22 04:42

その通りです．情報不足で申し訳ございません．

行動規範の内容に同意します

回答1件

ベストアンサー

提示ソース中においてresults[0]が最も類似度の高い単語です。
あとはこれと元の単語を置き換えればよいです。
置き換えに相当するソース部分が存在しない？（不明）なので、あとはご自身で実装ください。
たとえば以下のようになるかと思います。

Python
1# 略
2results = model.wv.most_similar(positive=[sel])
3print(results[0]) # 最も類似度の高い単語を出力

投稿2018/11/20 05:27

編集2018/11/22 04:44

can110

総合スコア38262

退会済みユーザー

2018/11/20 05:45

すみません，コード中に変数resultが重複していたので再び修正しました． print(results[0])としたら，最も類似度が高い単語が出力されるという認識で合っていますか？

can110

2018/11/20 05:49 編集

most_similarという関数名からそれは明らかであると私は認識しています。詳細は公式マニュアルで確認ください。

退会済みユーザー

2018/11/20 05:59

承知しました．確認します．

退会済みユーザー

2018/11/20 05:59

回答ありがとうございます．

can110

2018/11/20 06:04

えと、そもそもご自身が「most_similar」関数をコードに書かれているのにそのコードの意味を他人に尋ねられているので戸惑っています…

退会済みユーザー

2018/11/22 04:41

すみません，https://qiita.com/kenta1984/items/93b64768494f971edf86　を参考に書いたのできちんと意味を理解するまでに至っていませんでいた...

can110

2018/11/22 04:42

現状は「most_similar」関数は理解されたということでよろしいでしょうか？

退会済みユーザー

2018/11/22 04:54

少しは理解したつもりですが，完全に理解したとはいえない状況ですね...

can110

2018/11/22 04:56

あとは実際にいろいろと動かして慣れるしかないと思います。動かしていくうちに理解できる瞬間が来ますので。

退会済みユーザー

2018/11/22 05:03

わかりました，ありがとうございます．最後にもう一つだけ良いでしょうか？ベクトルも表示させず，類義語だけ表示させる方法はあるのでしょうか？

can110

2018/11/22 05:05

こちらでは動作未検証ですのでたぶん「result[0][0]」でよいと思いますがだめなら「results[0]」のprint結果を提示ください。

退会済みユーザー

2018/11/22 05:08

うまく出力されました．ありがとうございます．助かりました．

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！