質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

Q&A

解決済

2回答

8082閲覧

Python COS類似度計算の高速化

KK-31

総合スコア22

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

0グッド

0クリップ

投稿2018/11/27 08:30

編集2018/11/27 08:36

数列同士のCOS類似度を計算する際の高速化について、質問させていただきます。

質問内容

  1. 行列Aに対して、rand2で定義したデータとのコサイン類似度を求めた、配列cos_listを得たい場合、

 現在は、cos_simを内包表記で呼び出すことで、計算していますが、何らかの方法でここを高速化できないでしょうか?

Python

1import numpy as np 2import time 3def cos_sim(v1, v2): 4 return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2)) 5 6print("データ生成中...") 7rand1 = [ np.random.rand() for i in range(5000)] #5000個の乱数データを作成する。 #[0.43839043,0.8423294420,0.2342…] 8rand2 = [ np.random.rand() for i in range(5000)] #類似度を検索する対象となる乱数データ #[0.139043,0.9442446246420,0.231342…] 9A = np.array([rand1 for j in range(10000)],dtype=np.float32) #[[0.43839043,0.8423294420,0.2342…],[0.43839043,0.8423294420,0.2342…],[0.43839043,0.8423294420,0.2342…], …] 10print("データ準備完了") 11start = time.time() #時間計測用変数 12 13###------ーーーここを高速化したい。------ーーー 14cos_list =[ cos_sim(rand2,a) for a in A] #コサイン類似度リスト #[0.73141,0.73141,0.73141, ...] 15###------ーーー------ーーー------ーーーー 16#※あくまで例なのでデータは、Aの各データをrand1で固定しているので、10000個の同じコサイン類似度リストが求まります。 17 18print("完了時間:{0}".format(time.time() - start) + "[sec]") #>> 完了時間:2.42

以上、ご教授のほどよろしくお願い致します。

実行環境:Python3.X
CPU:仮想v6コア(AWS)

考えたこと

何となく、早やくなりそうだけど、やり方がわからないのですが、
イメージ的にこんな事がやりたい気がしています。
(一回1:1の関係でリスト化して、numpyで一気に全体に対してCOS類似度を求める?)

Python

1# target_list = [ cos_sim(rand2,a) for a in A] 2target_list = [[rand2,a] for a in A] 3#とりあえず、rand2の列とaの列を1:1の関係でリストに定義して、ここからnumpyの機能でCOS類似度を一気に求められないでしょうか・・・

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

こんな感じでどうでしょうか。

python

1import numpy as np 2import time 3def cos_sim(v1, v2): 4 return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2)) 5 6print("データ生成中...") 7rand1 = [ np.random.rand() for i in range(500)] 8rand2 = [ np.random.rand() for i in range(500)] 9A = np.array([rand1 for j in range(1000)], dtype=np.float32) 10print("データ準備完了") 11 12# original 13start = time.time() 14cos_list =[cos_sim(rand2,a) for a in A] 15print("完了時間:{0}".format(time.time() - start) + "[sec]") 16 17# rand1とrand2をnumpy配列に 18rand1 = np.array(rand1) 19rand2 = np.array(rand2) 20start = time.time() 21cos_list2 =[cos_sim(rand2,a) for a in A] 22assert np.allclose(cos_list, cos_list2), "error1" 23print("完了時間:{0}".format(time.time() - start) + "[sec]") 24 25# 先にスケーリングすることにする 26def cos_sim2(v1, v2): 27 return np.dot(v1, v2) 28 29A = np.array([rand1 for j in range(1000)], dtype=np.float32) 30 31start = time.time() 32rand2 /= np.linalg.norm(rand2) 33A /= np.linalg.norm(A, axis=1).reshape(-1, 1) 34cos_list3 =[cos_sim2(rand2,a) for a in A] 35assert np.allclose(cos_list, cos_list3), "error2" 36print("完了時間:{0}".format(time.time() - start) + "[sec]") 37 38""" => 39データ生成中... 40データ準備完了 41完了時間:0.059908390045166016[sec] 42完了時間:0.021083831787109375[sec] 43完了時間:0.003892183303833008[sec] 44"""

先にスケーリングすると1桁速くなりますね(たぶんスケーリング時間込みでも)。

投稿2018/11/27 08:58

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

KK-31

2018/11/27 23:23

大変参考になりました。 ありがとうございます。
guest

0

python

1import timeit 2import numpy as np 3 4# 入力データ 5A = np.random.rand(10000, 5000) 6b = np.random.rand(5000) 7 8# 質問欄のやり方 9def cos_sim(v1, v2): 10 return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2)) 11 12# Vectorized Computation 13def cos_sim2(v1, v2): 14 return np.inner(A, b) / (np.linalg.norm(v1, axis=1) * np.linalg.norm(v2)) 15 16# 質問欄の書き方 17loop = 10 18secs = timeit.timeit('[cos_sim(b, a) for a in A]', globals=globals(), number=loop) 19print(secs / loop) 20 21# Vectorized Computation 22secs = timeit.timeit('cos_sim2(A, b)', globals=globals(), number=loop) 23print(secs / loop)
0.1224646340124309 # 質問欄のやりかた 0.09451284902170301 # 一度に計算するやり方

numpy を使えば、基本的に for ループを使う必要性はないはずです。

一度の呼び出しで計算するやり方を記載しました。(配列の各要素ではなく、配列全体に一気に演算を適用する計算方法を vectrized computation といいます。)

約1.3倍ほど早くなりました。これ以上の劇的な高速化は難しいかもしれません。

投稿2018/11/27 08:58

tiitoi

総合スコア21956

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

KK-31

2018/11/27 23:24

大変参考になりました。こんな書き方があるんですね・・・。 ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問