Word2Vecにおけるコサイン類似度とgensimの類似度測定関数について
退会済みユーザー
総合スコア0

Question

### 前提・実現したいこと
Word2Vecにおける類似度測定関数について、
コサイン類似度で測定しているとあるのですが、
①
コサイン類似度の式に当てはめたときに、
![イメージ説明](b4c93f4d1a1a48a19f896bf9cd2bcb10.png)
このコードでは一体分母と分子が何にあたるのかよくわかりません。
[コード参照元](https://qiita.com/yoppe/items/512c7c072d08c64afa7e)
```Python
import gensim
word2vec_model = gensim.models.KeyedVectors.load_word2vec_format('model/model_neologd.vec', binary=False)
import pprint
pprint.pprint(word2vec_model.similarity('国王', '王妃'))
```
②
また、word2vecでベクトルから単語を出力するコードにおいて、
どのような原理で類似単語が出力され、コサイン類似度による類似度測定はどのように関わっているのかわからず、困っています。
[コード参照元2](https://qiita.com/iss-f/items/aec567ee5c79464413dc)
```python
sentences = gensim.models.word2vec.Text8Corpus(filename)
model = Word2Vec(sentences, size=100, window=5, min_count=5, workers=4)
vector = model.wv["明智"]
word = model.most_similar( [ vector ], [], 5)
```

###　試したこと
どちらの問題も
[gensimにおけるsimilarity関数の説明](https://radimrehurek.com/gensim/models/keyedvectors.html)を読みましたが、
よくわかりませんでした。
①
```
n_similarity(ws1, ws2)
Compute cosine similarity between two sets of words.

Parameters:	
ws1 (list of str) – Sequence of words.
ws2 (list of str) – Sequence of words.
Returns:	
Similarities between ws1 and ws2.

Return type:	
numpy.ndarray
```
②
```
most_similar(**kwargs)
Find the top-N most similar entities. Possibly have positive and negative list of entities in **kwargs.
```

他、参考資料

[ruby で短い文章の cos類似度を計算してみる](https://altarf.net/computer/ruby/3226)
### 補足情報（FW/ツールのバージョンなど）
python3.6

Accepted Answer

http://www.randpy.tokyo/entry/word2vec_skip_gram_model

https://deepage.net/bigdata/machine_learning/2016/09/02/word2vec_power_of_word_vector.html

単語はベクトルになるのですから、cos類似度を計算するのは高校数学じゃないですか。

単語を数値ベクトルに変換する手法がword2vecであることを理解していますか？

Answer

質問1について
あらかじめ学習したモデルから比較対象の単語の特徴ベクトルを抽出し、コサイン類似度の計算式に当てはめて計算しています。

質問2について
原理は上記の回答の応用です。与えられた単語の特徴ベクトルと全ての単語の特徴ベクトルのコサイン類似度を計算して上位のものを抽出しています。

前提・実現したいこと

補足情報（FW/ツールのバージョンなど）

関連した質問