🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

1764閲覧

pythonにおける単語の類似度について

taraco_040103

総合スコア4

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2021/01/25 02:37

編集2021/01/25 02:37

これは,疑問になるのですが
単語の類似度について類似度を算出しようとした場合に,大抵のサイトではcos類似度が用いられているのですが,これ以外に単語の類似度をpythonで実現しようとした場合にはどのようなものがあるでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

「単語の類似度の計算方法がコサイン類似度以外にあるか」という質問であれば、文字列の編集距離とかを使ったって出せますし、シソーラスでグラフ構造に基づく距離だって計算できますし、共起率とかで定義することもできますし、単語ベクトルの間の類似度にしたってコサイン類似度以外の計算方法は色々考えられるし……

星の数だけあります、という回答にしかならないのですが、

gensimでmost_similarを使うという状況であれば、基本的にはコサイン類似度を使うことになります。これはgensimがそういう実装だから、という以外の理由はありません。

投稿2021/01/27 13:20

hayataka2049

総合スコア30935

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

コサイン類似度の他に、と問われたらレーベンシュタイン距離とかでしょうか。
そもそも類似とは何か、という話になりますけれども。

あるいはそうじゃなくて「word2vec を使うと便利ですよ」的な回答をご希望だったりしますでしょうか。

投稿2021/01/25 05:20

68user

総合スコア2022

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

taraco_040103

2021/01/25 05:49

回答ありがとうございます. このような疑問を抱いた経緯として 現在,word2vecを用いてドメイン名(www.~.comといったもの)が行ごとに記述されたファイルに対して 前後関係から特徴量を算出→その後,類似度を算出 といった手順で類似度を算出しようとしています. その,類似度を算出するmodel.most_similar という関数がコサイン類似度で類似度を算出しているという説明があったので,他に類似度を算出する方法はないだろうか? と思ったのです.
68user

2021/01/25 06:05

質問は理解しましたが、残念ながらわたしにはわからないので他の回答者の皆様に期待です。
fana

2021/01/25 07:24

(知らん分野なので私もわかりませんが) 質問者様が「他の類似度算出方法」を探す目的って何なのでしょう? 「何らかの意味でコサイン類似度よりも良い指標が欲しい」といった話なのであれば,「何らかの意味」の部分が明確でないと適切な回答は得られ難いでしょうし, 単に「より計算しやすいやつが欲しい」という話だとしても,【質問者様が考えている類似度というもの】を表すのに足る指標とは何か?っていうところが不明だとやはり適切な回答は得られ難いように思えます.
taraco_040103

2021/01/26 05:41

回答ありがとうございます.もう一度自身で考えてから質問させてもらおうと思います.
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問