質問編集履歴

質問の意図をわかりやすく書いた

2022/11/22 03:34

投稿

tako15

スコア11

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- ~~【意見募集】リスト~~中にある特定の~~キーワード~~の~~インデッ~~クスを知りたい
1	+ 文中にある特定の単語のベクトルのみを文中から抜き出したい

body CHANGED Viewed

@@ -1,25 +1,26 @@
 ### 前提
-東北大版BERTを用いて、文中の「AのようなB」という、直喩のAとBの類似度を算出するプログラムを組んでいます。
+東北大版BERTを用いて、日本語文をベクトルに変換します。
-text.txtの１文目にある”波紋が広がり終わったあとの池の水面のような表情だ。”の例文の場合、Aが”池の水面”、Bが”表情”となります。
+そのときに、文中にある特定の単語のベクトルのみを文中から抜き出したいです。
-文全体をMeCabで分かち書きするので、Aは”池 の 水面”、Bが”表情”となります。
+（文中の特定の単語ベクトルを２箇所から抜き出し、それらの２単語のcos類似度を求めたいからです。）
-cos類似度は例文で考えると、”池”と”表情”、”の”と”表情”、”水面”と”表情”の３つのcos類似度の平均をとり、それを”池の水面”と”表情”のcos類似度にします。
+足りない点はコメントしていただけると幸いです。
 ### 実現したいこと
-文中でAとBに該当するインデックス（a = vec[0][5] のように）の指定方法の案を頂きたいです。
-該当のpythonコード内にある、vecリストの中身がが文字列であれば指定は簡単なのですが、実際は行列であるため、指定方法に難航しております。
+東北大版BERTを用いて、text.txtの”波紋が広がり終わったあとの池の水面のような表情だ。”をBERTを用いてベクトルに変換します。
-まだ試せていないので、これで出来そうなどの意見で構わないです。
-丸投げな質問で申し訳ありません。進捗が進み次第、適宜追加で情報を更新していきます。
+このときtext.txtを形態素解析（MeCab)をすると、
+'波', '##紋', 'が', '広がり', '終わっ', 'た', 'あと', 'の', '池', 'の', '水面', 'の', 'よう', 'な', '表情', 'だ', '。'
+のように分割されています。
+このときの’表情’のベクトルのみを抜き出す方法を知りたいです。
 ### 発生している問題・エラーメッセージ
-今のところありません
+今のプログラムだと結果は出てきますが、aとｂで新たにベクトルを作り出しており、、text.txtの文中から抜き出せていません。文中から抜き出した単語ベクトルを使えるようにしたいです。
 ### 該当のソースコード
 ```text.txt
 波紋が広がり終わったあとの池の水面のような表情だ。
-そしてお互いの瞳の中に、遠く離れた恒星のような輝きを認めあった。
-空は敷物のようなのっぺりとした灰色の雲に覆われていた。
 ```
 ```python
 # tohoku-BERT
@@ -41,7 +42,7 @@
 from numpy.linalg import norm
 import sys
-# sentence -> vec
+# text.txtの文をベクトルに変換する
 def sentence2vec(sentence):
     sentence = tknz.encode(sentence)
     sentence = torch.LongTensor(sentence).unsqueeze(0)
@@ -51,23 +52,24 @@
     return vec
-# cos類似度
+# cos類似度を算出する
 def cos_similarity(a, b, eps=1e-8):
     cos = np.dot(a, b) / ( norm(a) * norm(b) +eps )
     return cos
-cos_list = [] # 一応結果をまとめておくリスト
+#text.txtを開く
-with open(sys.argv[1], "r", encoding="utf-8") as f: #text.txtを開く
+with open(sys.argv[1], "r", encoding="utf-8") as f:
     for sentence in f:
         vec = sentence2vec(sentence)
-        # 以下のコードがわからない部分です
-        a = vec[0][5] # ５番目
+        a = "池の水面"
-        b = vec[0][8] # ８番目
+        b = "表情"
+        A_vec = model(torch.LongTensor( tknz.encode(a) ).unsqueeze(0))
+        B_vec = model(torch.LongTensor( tknz.encode(b) ).unsqueeze(0))
+        A_vec = A_vec[2][11]).to('cpu').detach().numpy().copy()
+        B_vec = B_vec[2][11]).to('cpu').detach().numpy().copy()
-        cos = cos_similarity(a,b)
+        cos = cos_similarity(A_vec, B_vec)
-        cos_list.append(cos)
         print(cos)
 ```

Python 3.x Mecab