Python　COS類似度計算の高速化

数列同士のCOS類似度を計算する際の高速化について、質問させていただきます。

質問内容

行列Aに対して、rand2で定義したデータとのコサイン類似度を求めた、配列cos_listを得たい場合、

　現在は、cos_simを内包表記で呼び出すことで、計算していますが、何らかの方法でここを高速化できないでしょうか？

Python
1import numpy as np
2import time
3def cos_sim(v1, v2): 
4    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
5
6print("データ生成中...")
7rand1 = [ np.random.rand() for i in range(5000)] #5000個の乱数データを作成する。 #[0.43839043,0.8423294420,0.2342…]
8rand2 =  [ np.random.rand() for i in range(5000)] #類似度を検索する対象となる乱数データ  #[0.139043,0.9442446246420,0.231342…]
9A = np.array([rand1 for j in range(10000)],dtype=np.float32)  #[[0.43839043,0.8423294420,0.2342…],[0.43839043,0.8423294420,0.2342…],[0.43839043,0.8423294420,0.2342…], …]
10print("データ準備完了")
11start = time.time() #時間計測用変数
12
13###－－－－－－ーーーここを高速化したい。－－－－－－ーーー
14cos_list =[ cos_sim(rand2,a) for a in A] #コサイン類似度リスト　#[0.73141,0.73141,0.73141, ...]
15###－－－－－－ーーー－－－－－－ーーー－－－－－－ーーーー
16#※あくまで例なのでデータは、Aの各データをrand1で固定しているので、10000個の同じコサイン類似度リストが求まります。
17
18print("完了時間:{0}".format(time.time() - start) + "[sec]") #>> 完了時間:2.42

以上、ご教授のほどよろしくお願い致します。

実行環境：Python3.X
CPU:仮想v6コア(AWS)

考えたこと

何となく、早やくなりそうだけど、やり方がわからないのですが、
イメージ的にこんな事がやりたい気がしています。
（一回1:1の関係でリスト化して、numpyで一気に全体に対してCOS類似度を求める？）

Python
1#　target_list = [ cos_sim(rand2,a) for a in A] 
2target_list = [[rand2,a] for a in A] 
3#とりあえず、rand2の列とaの列を1:1の関係でリストに定義して、ここからnumpyの機能でCOS類似度を一気に求められないでしょうか・・・

行動規範の内容に同意します

回答2件

ベストアンサー

こんな感じでどうでしょうか。

python
1import numpy as np
2import time
3def cos_sim(v1, v2): 
4    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
5
6print("データ生成中...")
7rand1 = [ np.random.rand() for i in range(500)]
8rand2 =  [ np.random.rand() for i in range(500)]
9A = np.array([rand1 for j in range(1000)], dtype=np.float32)
10print("データ準備完了")
11
12# original
13start = time.time() 
14cos_list =[cos_sim(rand2,a) for a in A] 
15print("完了時間:{0}".format(time.time() - start) + "[sec]")
16
17# rand1とrand2をnumpy配列に
18rand1 = np.array(rand1)
19rand2 = np.array(rand2)
20start = time.time() 
21cos_list2 =[cos_sim(rand2,a) for a in A] 
22assert np.allclose(cos_list, cos_list2), "error1"
23print("完了時間:{0}".format(time.time() - start) + "[sec]")
24
25# 先にスケーリングすることにする
26def cos_sim2(v1, v2):
27    return np.dot(v1, v2)
28
29A = np.array([rand1 for j in range(1000)], dtype=np.float32)
30
31start = time.time()
32rand2 /= np.linalg.norm(rand2)
33A /= np.linalg.norm(A, axis=1).reshape(-1, 1) 
34cos_list3 =[cos_sim2(rand2,a) for a in A] 
35assert np.allclose(cos_list, cos_list3), "error2"
36print("完了時間:{0}".format(time.time() - start) + "[sec]")
37
38""" =>
39データ生成中...
40データ準備完了
41完了時間:0.059908390045166016[sec]
42完了時間:0.021083831787109375[sec]
43完了時間:0.003892183303833008[sec]
44"""

先にスケーリングすると1桁速くなりますね（たぶんスケーリング時間込みでも）。

投稿2018/11/27 08:58

hayataka2049

総合スコア30933

KK-31

2018/11/27 23:23

大変参考になりました。ありがとうございます。

行動規範の内容に同意します

python
1import timeit
2import numpy as np
3
4# 入力データ
5A = np.random.rand(10000, 5000)
6b = np.random.rand(5000)
7
8# 質問欄のやり方
9def cos_sim(v1, v2): 
10    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
11
12# Vectorized Computation
13def cos_sim2(v1, v2):
14    return np.inner(A, b) / (np.linalg.norm(v1, axis=1) * np.linalg.norm(v2))
15
16# 質問欄の書き方
17loop = 10
18secs = timeit.timeit('[cos_sim(b, a) for a in A]', globals=globals(), number=loop)
19print(secs / loop)
20
21# Vectorized Computation
22secs = timeit.timeit('cos_sim2(A, b)', globals=globals(), number=loop)
23print(secs / loop)

0.1224646340124309  # 質問欄のやりかた
0.09451284902170301  # 一度に計算するやり方

numpy を使えば、基本的に for ループを使う必要性はないはずです。

一度の呼び出しで計算するやり方を記載しました。(配列の各要素ではなく、配列全体に一気に演算を適用する計算方法を vectrized computation といいます。)

約1.3倍ほど早くなりました。これ以上の劇的な高速化は難しいかもしれません。

投稿2018/11/27 08:58

tiitoi

総合スコア21956

KK-31

2018/11/27 23:24

大変参考になりました。こんな書き方があるんですね・・・。ありがとうございます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！