意味を考慮せず、ただ単語の使われ方の類似度で求めている
「意味」と「単語の使われ方」の何が違うか説明できますか?
「意味的に似ている」とはどういう現象か定義できますか?
どういう基準をクリアしたら「意味的に似ている」ということになりますか?
定義できるならそれを実装すれば話は終了です。
が、それはできないわけです。
大量のテキスト中で、ある単語の周辺に現れる単語の頻度を数えて、頻度を高次元のベクトルだとみなす。あるいはそれを次元削減するのはナイーブなやり方です。
word2vecはそのようなベクトルを近似的に高速に取得する実装です。
word2vecでいう類義語(most similar)は、単純にベクトル間の「距離が小さい」語を指すかと思います。
(追記)
文章内に、似た使われ方をしている単語の類似度を求めるのでしょうか。
それとも、意味的に似ている単語の類似度を求めているのでしょうか。
ここは文がちょっとおかしいかと。
単語間の類似度を求めるための方法として、似た使われ方をしている単語を近似的に探索している、というのは合ってます。
「似た使われ方をしている単語は意味も似ている(大意)」という仮説が1950年代からあって、word2vec以前でも「頻度情報をベクトルだと思ったもの」でそこそこ問題は解けることはわかっていて、そのことからこの仮説は(ある程度は)正しいと考えられていました。
word2vec の登場で大規模な文書から現実的な時間で学習できるようになって、ベクトルの質が一気に向上したという感じでしょうか。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/01/19 02:31
2020/01/19 03:03
2020/01/19 04:08 編集