文中にある特定の単語のベクトルのみを文中から抜き出したい

Question

### 前提

東北大版BERTを用いて、日本語文をベクトルに変換します。
そのときに、文中にある特定の単語のベクトルのみを文中から抜き出したいです。
（文中の特定の単語ベクトルを２箇所から抜き出し、それらの２単語のcos類似度を求めたいからです。）

足りない点はコメントしていただけると幸いです。
### 実現したいこと

東北大版BERTを用いて、text.txtの”波紋が広がり終わったあとの池の水面のような表情だ。”をBERTを用いてベクトルに変換します。

このときtext.txtを形態素解析（MeCab)をすると、
'波', '##紋', 'が', '広がり', '終わっ', 'た', 'あと', 'の', '池', 'の', '水面', 'の', 'よう', 'な', '表情', 'だ', '。'
のように分割されています。

このときの’表情’のベクトルのみを抜き出す方法を知りたいです。

### 発生している問題・エラーメッセージ
今のプログラムだと結果は出てきますが、aとｂで新たにベクトルを作り出しており、、text.txtの文中から抜き出せていません。文中から抜き出した単語ベクトルを使えるようにしたいです。

### 該当のソースコード
```text.txt
波紋が広がり終わったあとの池の水面のような表情だ。
```
```python
# tohoku-BERT
from transformers import BertConfig, BertModel
from transformers import BertJapaneseTokenizer
from transformers.models.bert_japanese import tokenization_bert_japanese

config = BertConfig.from_json_file('config.json')
config.output_hidden_states = True # 各層の情報の取り出し
model = BertModel.from_pretrained('pytorch_model.bin', config=config)
tknz = BertJapaneseTokenizer(vocab_file='vocab.txt', do_lower_case=False, do_basic_token
ize=False)
tknz.word_tokenizer = tokenization_bert_japanese.MecabTokenizer()

# ここまでBERTモデルの読み込みです

import torch
import numpy as np
from numpy.linalg import norm
import sys

# text.txtの文をベクトルに変換する
def sentence2vec(sentence):
    sentence = tknz.encode(sentence)
    sentence = torch.LongTensor(sentence).unsqueeze(0)
    vec = model(sentence)
    vec = (vec[2][11]).to('cpu').detach().numpy().copy()
    # 11層の出力結果をTensor型からnumpy型に変更
    return vec

# cos類似度を算出する
def cos_similarity(a, b, eps=1e-8):
    cos = np.dot(a, b) / ( norm(a) * norm(b) +eps )
    return cos

#text.txtを開く
with open(sys.argv[1], "r", encoding="utf-8") as f:
    for sentence in f:
        vec = sentence2vec(sentence)
        a = "池の水面"
        b = "表情"
        A_vec = model(torch.LongTensor( tknz.encode(a) ).unsqueeze(0))
        B_vec = model(torch.LongTensor( tknz.encode(b) ).unsqueeze(0))
        
        A_vec = A_vec[2][11]).to('cpu').detach().numpy().copy()
        B_vec = B_vec[2][11]).to('cpu').detach().numpy().copy()
        cos = cos_similarity(A_vec, B_vec)
        print(cos)
```

### 補足情報（FW/ツールのバージョンなど）

python3.10.4

Accepted Answer

「"池の水面"をトークナイズした結果が元の文と同じになる」という前提下ではありますが、
・a  と b を `tknz.encode` した結果から特殊トークンを取り除く
・文を`tknz.encode` した結果からaやbと同じ長さの部分列を取り出していく
・一致するか調べる
をすればよいと思います。

部分列を取るのは[more_itertools.windowed](https://more-itertools.readthedocs.io/en/stable/api.html#more_itertools.windowed)が楽でしょう。

```plain
>>> from transformers import BertConfig, BertModel
>>> from transformers import BertJapaneseTokenizer
>>> from transformers.models.bert_japanese import tokenization_bert_japanese
>>> config = BertConfig.from_json_file('config.json')
>>> config.output_hidden_states = True # 各層の情報の取り出し
>>> model = BertModel.from_pretrained('pytorch_model.bin', config=config)
>>> tknz = BertJapaneseTokenizer(vocab_file='vocab.txt', do_lower_case=False, do_basic_tokenize=False)
>>> tknz.word_tokenizer = tokenization_bert_japanese.MecabTokenizer()

>>> s = tknz.encode('波紋が広がり終わったあとの池の水面のような表情だ。')
>>> a = tknz.encode('池の水面')
>>> b = tknz.encode('表情')

>>> s
[2, 3202, 7076, 862, 20696, 13094, 881, 13985, 896, 3156, 896, 21414, 896, 11169, 892, 18731, 882, 829, 3]

>>> a
[2, 3156, 896, 21414, 3]

>>> b
[2, 18731, 3]

>>> a_sub = tuple(a[1:-1])  # [CLS] と [SEP] を取り除く。windowed から出てくるのがタプルなのでタプルにする
>>> b_sub = tuple(b[1:-1])

>>> from more_itertools import windowed

>>> a_index = None

>>> for i, sub_sequence in enumerate(windowed(s, len(a_sub))):
...     if sub_sequence == a_sub:
...         a_index = i
...         break

>>> b_index = None

>>> for i, sub_sequence in enumerate(windowed(s, len(b_sub))):
...     if sub_sequence == b_sub:
...         b_index = i
...         break

>>> a_index
9

>>> b_index
15
```

bのベクトルは該当部分を抜けばいいですね。
```plain
>>> import torch
>>> s_vec = model(torch.LongTensor(s).unsqueeze(0))[2][11].to('cpu').detach().numpy().copy()
>>> b_vec = s_vec[0, b_index, :]
```

aのベクトルは、ナイーブには該当部分の平均をとるとかでしょうか……。あまり自信はないですが

```plain
>>> a_vec = s_vec[0, a_index:a_index+len(a_sub), :].mean(axis=0)
```
とかでしょうか。（よい書き方かどうか分かりません）