以下のaとbのように、それぞれ配列（ベクトル）が複数格納されたデータがあり、この配列同士の全組み合わせに対し、別の関数で定義した配列演算をしたいと思っています（この場合、決定係数という統計指標の算出を使っています）。この時、for文を二つ回さずに実行する方法を教えていただけないでしょうか？ np.meshgridを使おうとしたのですが、なかなかうまくいかず、止まっています。 ```Python import numpy as np def calc(x,y): return 1 - sum((x - y) ** 2) / sum((x - y.mean()) ** 2) a = np.array([[0, 0, 0, 0, ], [5, 5, 5, 10], [1, 2, 10, 12], [-3, 0, -2, 12]]) b = np.array([[1, 2, 3, 4, ], [8, 0, 10, 22], [5, 6, 7, 0], [-1, 0, 10, -12]]) # 以下は計算可能だが、aとbの全配列組み合わせで実施したい(a[0]〜a[3]×b[0]〜b[3]のイメージ) calc(a[0], b[1]) ```

次元を意識してブロードキャストさせていきましょう。またそのために`sum()`ではなく`np.sum()`を用いましょう。 ```python In [11]: a = np.array([[0, 0, 0, 0, ], [5, 5, 5, 10], [1, 2, 10, 12], [-3, 0, -2, 12]]) : b = np.array([[1, 2, 3, 4, ], [8, 0, 10, 22], [5, 6, 7, 0], [-1, 0, 10, -12]]) In [12]: x = a[:, None] : y = b[None, :] In [13]: 1 - np.sum((x - y) ** 2, -1) / np.sum((x - y.mean(-1, keepdims=True)) ** 2, -1) Out[13]: array([[-2.00000000e-01, -6.20000000e-01, -3.58024691e-01, -1.07888889e+02], [ 1.33333333e-01, -1.70666667e+00, -2.38709677e+00, -1.65424913e+00], [ 2.41610738e-01, -2.68456376e-02, -7.61904762e-01, -1.02251082e+00], [ 2.58503401e-01, 1.24700240e-01, -8.57142857e-01, -3.26509573e+00]]) ```

```python import numpy as np def calc(x,y): X = np.tile(x, (1, y.shape[0])).reshape(-1, x.shape[1]) Y = np.tile(y, (x.shape[0], 1)) return 1- np.sum((X - Y) ** 2, axis=1) / np.sum((X - (np.mean(Y, axis=1)).reshape(np.mean(Y, axis=1).shape[0],-1)) ** 2, axis=1) ```

配列同士の全組み合わせに対して、関数で定義した計算を通す

以下のaとbのように、それぞれ配列（ベクトル）が複数格納されたデータがあり、この配列同士の全組み合わせに対し、別の関数で定義した配列演算をしたいと思っています（この場合、決定係数という統計指標の算出を使っています）。

この時、for文を二つ回さずに実行する方法を教えていただけないでしょうか？
np.meshgridを使おうとしたのですが、なかなかうまくいかず、止まっています。

Python
1import numpy as np
2
3def calc(x,y):
4    return 1 - sum((x - y) ** 2) / sum((x - y.mean()) ** 2)
5
6a = np.array([[0, 0, 0, 0, ], [5, 5, 5, 10], [1, 2, 10, 12], [-3, 0, -2, 12]])
7b = np.array([[1, 2, 3, 4, ], [8, 0, 10, 22], [5, 6, 7, 0], [-1, 0, 10, -12]])
8
9# 以下は計算可能だが、aとbの全配列組み合わせで実施したい(a[0]〜a[3]×b[0]〜b[3]のイメージ)
10calc(a[0], b[1])

ppaul

2020/12/04 09:37

なぜ、for文をふたつ回さずに実行したいのですか。他の書き方を使っても、性能的に早くなることはありません。性能以外の原因があるのでしょうか？

MagMag

2020/12/04 10:22 編集

ありがとうございます。センサーからあがってくるデータに対して、この計算をリアルタイムで逐次処理しなければならないため、性能が必要です。以下のリンクにあるように、for文を使わないと早いという文言を見て「for文使わない方がいいだろうな」と考え、meshgirdでの実装を考えていました。ご指摘のとおり、他の方法で早くならなければ、目的は達成できません。 https://sekailab.com/wp/2018/06/11/numpy-combinatorial-calculation-in-array/ ＞他の書き方を使っても、性能的に早くなることはありません。このリンクではfor文を回さず、meshgirdで実行した方が早いとありますが、そうならない、ということでしょうか？for文で処理せず、numpyで可能な限り一括計算に持ち込んで処理することで、処理性能は向上するものばかりと思っていましたが、、、。

ppaul

2020/12/04 12:17

pythonのfor文が非常に遅いのは間違いありません。長さ4の二重ループを使うと、イテレータの呼び出しが25回、割り込みが5回起こるので、それだけでも膨大な時間がかかります。これを回避するために、多次元配列の計算部分をC言語やアセンブラで書かれた高速なライブラリを呼び出すのがnumpyの役目です。 meshgridが使えるのであれば良いのですが、meshgridを使うのはほぼ確実に無理です。calc関数自体を変更せずにほかの制御方法を使った場合には性能は変わりません。 meg_の回答のように、calc関数をnumpyを使って書き直すのはかなり良い方法です。明示的な関数呼び出しだけでなく、**演算や/演算もC言語やアセンブラで書かれた関数の呼び出しになるので、かなりの高速化が期待できます。性能が不足する場合は、numpyにリンクされているblasライブラリを有償のものに取り換えると、SIMD命令を有効利用することで性能が上がります。それでも性能が不足するようでしたら、calc関数をpythonインタフェースを使ったC言語で作ることになりますが、ご自身で行うことはお勧めしません。

MagMag

2020/12/06 22:31

承知しました。ありがとうございます！

行動規範の内容に同意します

回答3件

ベストアンサー

次元を意識してブロードキャストさせていきましょう。
またそのためにsum()ではなくnp.sum()を用いましょう。

python
1In [11]: a = np.array([[0, 0, 0, 0, ], [5, 5, 5, 10], [1, 2, 10, 12], [-3, 0, -2, 12]])
2       : b = np.array([[1, 2, 3, 4, ], [8, 0, 10, 22], [5, 6, 7, 0], [-1, 0, 10, -12]])
3
4In [12]: x = a[:, None]
5       : y = b[None, :]
6
7In [13]: 1 - np.sum((x - y) ** 2, -1) / np.sum((x - y.mean(-1, keepdims=True)) ** 2, -1)
8Out[13]:
9array([[-2.00000000e-01, -6.20000000e-01, -3.58024691e-01, -1.07888889e+02],
10       [ 1.33333333e-01, -1.70666667e+00, -2.38709677e+00, -1.65424913e+00],
11       [ 2.41610738e-01, -2.68456376e-02, -7.61904762e-01, -1.02251082e+00],
12       [ 2.58503401e-01,  1.24700240e-01, -8.57142857e-01, -3.26509573e+00]])

投稿2020/12/04 16:58

kirara0048

総合スコア1399

MagMag

2020/12/05 00:22 編集

ありがとうございました！ただ、すみません。ブロードキャストで3次元にして計算するというのが、自分の実力不足でまだ理解できないです、、。

meg_

2020/12/05 01:31

こんなにシンプルに書けるんですね！

MagMag

2020/12/06 22:30

どれをベストアンサーにするのか迷ったのですが、一番高評価だったkiraraさんの案にさせていただきました。

kirara0048

2020/12/07 07:31

aのどの次元とbのどの次元が組み合わさるか、絵を描いてみるなどすると感覚がつかめるかもしれません（難しければ次元や要素数を減らして試行）。

MagMag

2020/12/07 07:39

わざわざアドバイスもいだたき、ありがとうございます！やってみます。

行動規範の内容に同意します

python
1import numpy as np
2
3def calc(x,y):
4    X = np.tile(x, (1, y.shape[0])).reshape(-1, x.shape[1])
5    Y = np.tile(y, (x.shape[0], 1))
6    return 1- np.sum((X - Y) ** 2, axis=1) / np.sum((X - (np.mean(Y, axis=1)).reshape(np.mean(Y, axis=1).shape[0],-1)) ** 2, axis=1)

投稿2020/12/04 10:57

meg_

総合スコア11101

MagMag

2020/12/05 00:18

なるほど。tileを使って中で組み合わせを作ってあげるのですね。ありがとうございました！

行動規範の内容に同意します

itertools.productを使ってみてはどうでしょうか。

from itertools import product
import pandas as pd
import numpy as np


def calc(x,y):
    return 1 - sum((x - y) ** 2) / sum((x - y.mean()) ** 2)


a = np.array([[0, 0, 0, 0, ], [5, 5, 5, 10], [1, 2, 10, 12], [-3, 0, -2, 12]])
b = np.array([[1, 2, 3, 4, ], [8, 0, 10, 22], [5, 6, 7, 0], [-1, 0, 10, -12]])

result = map(lambda p:calc(*p), product(a, b))

print(list(result))

投稿2020/12/04 09:07

編集2020/12/04 09:13