BERTから得た単語ベクトルでcos類似度を求めたい

Question

### 前提学習済みBERTから２つの単語ベクトルを抽出し、それらのcos類似度を求めたいです。東北大版BERTのモデルを読み込みました。単語ベクトルは１１層のものを使用します。 ### 実現したいことモデルを読み込み、単語ベクトルを画面出力するところまではできました。その単語ベクトルからcos類似度を求めたいです。エラーメッセージのように、"shapes (1,7,768) and (1,6,768) not aligned"となっているため、行又は列が一致していないために起こるエラーだと思っています。この２つの語句でcos類似度を求める方法はありませんでしょうか？ ### 発生している問題・エラーメッセージ ``` Traceback (most recent call last): File "/home/acd13859jl/grad_work/bert_prog.py", line 32, in cos = cos_similarity(A, B) File "/home/acd13859jl/grad_work/bert_prog.py", line 28, in cos_similarity return np.dot(na, nb) File "<__array_function__ internals>", line 180, in dot ValueError: shapes (1,7,768) and (1,6,768) not aligned: 768 (dim 2) != 6 (dim 1) ``` ### 該当のソースコード ```python # tohoku-BERT from transformers import BertConfig, BertModel config = BertConfig.from_json_file('config.json') config.output_hidden_states = True # 各層の情報の取り出し model = BertModel.from_pretrained('pytorch_model.bin', config=config) from transformers import BertJapaneseTokenizer tknz = BertJapaneseTokenizer(vocab_file='vocab.txt', do_lower_case=False, do_basic_tokenize=False) from transformers.models.bert_japanese import tokenization_bert_japanese tknz.word_tokenizer = tokenization_bert_japanese.MecabTokenizer() import torch import numpy as np x = tknz.encode("欠けていたピース") # [2, 15201, 16, 21, 10, 14802, 3] y = tknz.encode("ぴったりかみ合う") # [2, 10411, 21087, 11620, 7393, 3] x = torch.LongTensor(x).unsqueeze(0) y = torch.LongTensor(y).unsqueeze(0) a = model(x) b = model(y) # cos類似度を求める(epsは母数がゼロにならないようにするため） # cos_similarityの中の処理を一部変更しました。結果自体は変わらないと思います。 def cos_similarity(a, b, eps=1e-8): cos = np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b)) + eps return cos A = (a[2][11]).to('cpu').detach().numpy() B = (b[2][11]).to('cpu').detach().numpy() # https://tzmi.hatenablog.com/entry/2020/02/16/170928#pytorch-tensor%E3%81%8B%E3%82%89-numpy-ndarray%E3%81%B8%E5%A4%89%E6%8F%9B # このサイトをもとに一部A,Bを修正しました cos = cos_similarity(A, B) print(cos) ``` ### 補足情報（FW/ツールのバージョンなど） python 3.10 torch 1.12.1+cu116 numpy 1.23.4

Accepted Answer

今回利用されているのは単語ベクトルを導出するBERTですが，文章で比較したいなら文章ベクトルを取得できるSentence BERTを利用する必要があります．簡単にしか探していませんが東北大版BERTのモデルに文章ベクトルを導出するものは見つからなかったものの，次のサイトが参考になるでしょう．

[はじめての自然言語処理 - 第9回 Sentence BERT による類似文章検索の検証](https://www.ogis-ri.co.jp/otc/hiroba/technical/similar-document-search/part9.html)

もし，単語同士の類似度でいいのであれば，求めたい単語同士のindexをそれぞれ`i`,`j`として`cos_similarity(A, B)`を`cos_similarity(A[0][i], B[0][j])`と書くことができます．

Answer

> エラーメッセージのように、"shapes (1,7,768) and (1,6,768) not aligned"となっているため、行又は列が一致していないために起こるエラーだと思っています。

a は(特殊トークンを含めて)7つのトークン、bは6つのトークンから成っていますから、単純にコサイン類似度は計算できません。

----

https://stackoverflow.com/questions/63461262/bert-sentence-embeddings-from-transformers

が大まかに似た質問で参考になると思います。

BERTで有意な文ベクトルが作れるかどうかは自明じゃない。といっても方法がないわけじやない。
という話が書かれています。

方法としては、Sentence BERTの論文でも議論されていることですが、(ps_aux_grep さんの回答にあるURLの解説にもあります)

“[CLS]"トークンに対応するベクトルを文のベクトルだと思う
各トークンのベクトルを平均したものを文のベクトルだと思う

のどちらかのようです。

前者は
https://nikkie-ftnext.hatenablog.com/entry/text-classification-with-features-from-bert#fnref:8
あたりがコードの参考になるかと思います。

-----

「コサイン類似度を計算する」は目的ではないはずです、
「コサイン類似度を計算して実際に解きたいタスク」に向けてファインチューニングを考えるべきです。
その時、“[CLS]"トークンを使うのと平均を使うのとで**そのタスクにおいて**どちらがいいのか? は実際にやってみないと分からないと思います。

Answer

```Text
cosは内積である。
```

前提

実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

補足情報（FW/ツールのバージョンなど）

関連した質問