python上でのコサイン類似度の求め方

Question

### 前提・実現したいこと

初めて質問させていただきます。
現在、pythonにてベクトルのコサイン類似度を求める作業をしています。

その際、データフレームを２つ用意し、それぞれ上から一行ずつ取り出してコサイン類似度を求めようとしています。（以下のようなデータフレームが２つあるイメージです）
これらをリスト化し、以下の処理を実行しましたがうまくいきませんでした。



インデックス名　１　　　２　　　３　　　４…
名前　　　　　　数字　　数字　　数字　　数字…
名前　　　　　　…
名前　　　　　　…




### 発生している問題・エラーメッセージ

ValueError: shapes (682,768) and (682,768) not aligned: 768 (dim 1) != 682 (dim 0)



### 該当のソースコード

import numpy as np

def cos_similarity(v1, v2):
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
    



print(cos_similarity(リスト名, リスト名))

### 試したこと

上記のエラーメッセージから、データフレームの方に瑕疵があるかと思い調べましたが、特に問題はないように思われました。
解決方法が分かる方がいらっしゃいましたら、教えていただけないでしょうか。
何卒宜しくお願い致します。


### 補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

Accepted Answer

二つのデータフレームをdf1, df2とします

計算したい組み合わせは、
df1の1行目とdf2の1行目
df1の2行目とdf2の2行目
みたいに、同じ行どうしだけですか？

それとも、全ての組み合わせ(総当たり)ですか？
たとえば、
df1の1行目とdf2の2行目
みたいな、別の行との組み合わせも計算するのですか？

総当たりなら、下記でできます
```python
from sklearn.metrics.pairwise import cosine_similarity
print(cosine_similarity(df1, df2))
```

df1, df2の同じ行どうしの組み合わせの結果だけ欲しければ、対角要素を取り出します
```python
print(np.diag(cosine_similarity(df1, df2)))
```

Answer

主旨にあっているかどうか自信はありませんが、なにか、こういう類のことを求めているように思いました。

```python
import pandas as pd
import numpy as np

df_dot=df1.dot(df2.T)
df1_norm = pd.DataFrame(np.linalg.norm(df1.values, axis=1), index = df1.index)
df2_norm = pd.DataFrame(np.linalg.norm(df2.values, axis=1), index = df2.index)
df_norm = df1_norm.dot(df2_norm.T)
df_cos = df_dot/df_norm
print(df_cos)
```
実行してみた結果は以下です。
```python
>>> print(df1)
            1         2         3         4
名前1  0.679578  0.951728  0.624343  0.834700
名前2  0.987034  0.847858  0.129869  0.309054
名前3  0.207578  0.449786  0.862022  0.656207
名前4  0.928108  0.370134  0.124086  0.597354
名前5  0.295989  0.108466  0.148657  0.316404
名前6  0.511950  0.394687  0.185698  0.759663
名前7  0.573310  0.742546  0.136020  0.533240
>>> print(df2)
            1         2         3         4
名前A  0.005137  0.774268  0.434078  0.753827
名前B  0.166590  0.772086  0.400457  0.031152
名前C  0.439442  0.402212  0.295230  0.913475
名前D  0.816473  0.162942  0.701697  0.959829
名前E  0.076024  0.213447  0.883743  0.475083
名前F  0.015643  0.798376  0.905344  0.201227
名前G  0.681353  0.338289  0.644906  0.368703
>>>
>>> df_dot = df1.dot(df2.T)
>>> print(df_dot)
          名前A       名前B       名前C       名前D       名前E       名前F       名前G
名前1  1.640616  1.124052  1.628234  1.949203  1.203119  1.503676  1.495391
名前2  0.950886  0.880684  1.095417  1.331806  0.517609  0.872115  1.157042
名前3  1.218172  0.747499  1.126052  1.477496  1.185345  1.274818  1.091460
名前4  0.795515  0.508689  1.139024  1.478513  0.543016  0.542568  1.057851
名前5  0.388545  0.202441  0.506612  0.667346  0.327347  0.289481  0.450894
名前6  0.961485  0.488047  1.132477  1.341755  0.648178  0.644102  0.882185
名前7  1.038889  0.739899  1.077857  1.196348  0.575620  0.832246  0.926149
>>> df1_norm = pd.DataFrame(np.linalg.norm(df1.values, axis=1), index = df1.index)
>>> df2_norm = pd.DataFrame(np.linalg.norm(df2.values, axis=1), index = df2.index)
>>> df_norm = df1_norm.dot(df2_norm.T)
>>> print(df_norm)
          名前A       名前B       名前C       名前D       名前E       名前F       名前G
名前1  1.824362  1.388166  1.769934  2.273863  1.611394  1.917234  1.665674
名前2  1.564795  1.190661  1.518111  1.950342  1.382129  1.644454  1.428686
名前3  1.387284  1.055592  1.345896  1.729095  1.225339  1.457906  1.266615
名前4  1.363385  1.037407  1.322710  1.699307  1.204230  1.432790  1.244795
名前5  0.548190  0.417121  0.531835  0.683258  0.484197  0.576096  0.500507
名前6  1.181577  0.899068  1.146326  1.472704  1.043646  1.241727  1.078801
名前7  1.266591  0.963756  1.228803  1.578664  1.118735  1.331069  1.156420
>>> df_cos = df_dot/df_norm
>>> print(df_cos)
          名前A       名前B       名前C       名前D       名前E       名前F       名前G
名前1  0.899282  0.809739  0.919941  0.857221  0.746632  0.784295  0.897769
名前2  0.607675  0.739660  0.721566  0.682858  0.374501  0.530338  0.809865
名前3  0.878099  0.708133  0.836656  0.854491  0.967361  0.874417  0.861714
名前4  0.583485  0.490347  0.861129  0.870068  0.450924  0.378680  0.849820
名前5  0.708777  0.485329  0.952572  0.976713  0.676061  0.502487  0.900875
名前6  0.813730  0.542836  0.987919  0.911082  0.621071  0.518715  0.817746
名前7  0.820225  0.767725  0.877160  0.757823  0.514527  0.625247  0.800876
```

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問