例えば以下の2つの文章(分かち書きをしている)の類似度を知りたいとします。
犬 好き
猫 好き
One-hotベクトルに直すと以下のようになります。
犬、猫、好き
[1,0,1]
[0,1,1]
ここでword2vecを使って以下のような重みベクトルを得たとします。
[0.2, 0.3]
[0.5, 0.3]
[0.4, 0.6]
これを使って、
[0.2, 0.3] [1,0,1] × [0.5, 0.3] [0.4, 0.6] =[0.2+0.4] [0.3 +0.6] =[0.6] [0.9] もう一つは [0.9] [0.9]
のように、最初の多次元ベクトルをそれ以下の次元ベクトルに圧縮して、
この2つの低次元ベクトルの内積で文章の類似度を判別することはできないでしょうか?
できる場合、参考になるpythonコード、またはページを教えていただけますとありがたいです。
よろしくお願いいたします。
---------------追記----------------
すみません、平均ベクトルではないです。
平均ベクトルの場合は
[1,0,1]
[0,1,1]
はそれぞれ
[0.25,0,0.5]
[0,0.4,0.5]
のように3次元ベクトルとなりますが、
質問は2次元ベクトルの内積です。
よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/12/05 22:35
2019/12/05 22:49
2019/12/06 00:12
2019/12/06 06:13
2019/12/06 06:35 編集
2019/12/07 16:21