回答率: 85.35%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.35%

トップ Google Colaboratoryに関する質問

Q&A

解決済

1回答

1533閲覧

3つ以上の文章の類似度を計算したいです

総合スコア6

0グッド

0クリップ

投稿2021/12/16 09:07

0

0

前提・実現したいこと

こちらのサイト
https://qiita.com/yoppe/items/512c7c072d08c64afa7e
を参考に複数の文章の類似度を算出するプログラムを作成しようと思い、とりあえず3つ目の文章を追加したところ下記のようなエラーが出ました。

発生している問題・エラーメッセージ

ValueError: Input weights should be all non-negative

該当のソースコード

import gensim
import MeCab
import numpy as np
from scipy import spatial

mecab = MeCab.Tagger(" -Owakati")

# 文章で使用されている単語の特徴ベクトルの平均を算出
def avg_feature_vector(sentence, model, num_features):
    words = mecab.parse(sentence).replace(' \n', '').split() # mecabの分かち書きでは最後に改行(\n)が出力されてしまうため、除去
    feature_vec = np.zeros((num_features,), dtype="float32") # 特徴ベクトルの入れ物を初期化
    for word in words:
        feature_vec = np.add(feature_vec, model[word])
    if len(words) > 0:
        feature_vec = np.divide(feature_vec, len(words))
    return feature_vec

# 3つの文章の類似度を算出
def sentence_similarity(sentence_1, sentence_2 ,sentence_3):
    # 今回使うWord2Vecのモデルは300次元の特徴ベクトルで生成されているので、num_featuresも300に指定
    num_features=300
    sentence_1_avg_vector = avg_feature_vector(sentence_1, word2vec_model, num_features)
    sentence_2_avg_vector = avg_feature_vector(sentence_2, word2vec_model, num_features)
    sentence_3_avg_vector = avg_feature_vector(sentence_3, word2vec_model, num_features)
    # １からベクトル間の距離を引いてあげることで、コサイン類似度を計算
    return 1 - spatial.distance.cosine(sentence_1_avg_vector, sentence_2_avg_vector, sentence_3_avg_vector) 

result = sentence_similarity(
     "彼は昨日、激辛ラーメンを食べてお腹を壊した",
    "昨日、僕も激辛の中華料理を食べてお腹を壊した",
    "昨日、僕も激辛の麻婆豆腐を食べてお腹を壊した"
)
print(result)

試したこと

単純にsentence_3を追加するだけではダメなのでしょうか？

補足情報（FW/ツールのバージョンなど）

google colaboratoryにて実行しています。

行動規範の内容に同意します

回答1件

0

ベストアンサー

https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cosine.html
第3引数は要素に重みを与えるパラメータです。

Input weights should be all non-negative

とあるとおり負は指定できません。

「3つ以上の文章の類似度」は他人には伝わらないので定義してください。

投稿2021/12/16 10:43

総合スコア11235

2021/12/16 11:12

ありがとうございます、第3引数はそもそも文章を入れる部分じゃないんですね… 類似度というのは二つの文章を比較するものであって、3つ以上の文章を比較するというのは不可能なのでしょうか？

2021/12/16 11:22

不可能というか「こういうものを『3つ以上の文章の類似度』としよう」という概念が共有できてないです。

2021/12/16 11:44

用途や例があれば……

2021/12/16 14:51

そうですね、3つ同時は確かに変でした、すみません。内容が変わってしまいますが、A,B,Cの3つの文章があるとしてAから見て、B,Cとの類似度、Bから見てA,Cの類似度、Cから見てA,Bの類似度というのはまとめて算出できたりしますでしょうか？

2021/12/16 23:50

素朴には Aから見たB,Cとの類似度 => B-AベクトルとC-Aベクトルのコサイン類似度と定義するんでしょうか。そう定義して計算してみて、直感に合うかや、やりたいことができるかを試してみたらいいかと思います。

2021/12/17 03:24

貴重なご意見ありがとうございます。色々試してみたいと思います。混乱させてしまい申し訳ございませんでした。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ Google Colaboratoryに関する質問

3つ以上の文章の類似度を計算したいです

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【ジャック広告の配信について】現在、非ログイン状態のユーザー様に対して一部の地域限定でジャック広告を配信しております。詳細につきましてはteratailブログをご確認ください。 https://blog.teratail.com/entry/jack-ad-202412

過去のお知らせを見る