多変量正規分布の確率密度を高速計算したい（python）

多変量正規分布の確率密度の計算を速くしたいです

現時点では以下のようなコードで動かしています

python
1import numpy as np
2
3x = np.array([ 0.70864076 ,-0.61552062])
4mean = [0.79081355 ,0.10586335]
5cov = [[1,0],[0,1]]
6
7def gaussian(x, mean, cov):
8    A = 1. / ((2. * np.pi) ** (x.size**(1/2)/2.0))
9    B = 1. / (np.linalg.det(cov) ** 0.5)
10    C = -0.5 * np.dot(np.dot(x - mean, np.linalg.inv(cov)), x - mean)
11    return A * B * np.exp(float(C))
12
13gaussian(x,mean,cov)

例として2次元ですが，多次元になった時に非常に計算が遅くなってしまいます

改善点があれば教えていただけるとありがたいです

行動規範の内容に同意します

回答2件

ベストアンサー

scipy.stats.multivariate_normal.pdfを使用してはいかがでしょうか。パラメーターは平均ベクトルと共分散行列です。ほかにpmfなど確率密度関数を使用して計算できる関数は一通り揃っているはずです

投稿2018/11/13 03:32

R.Shigemori

総合スコア3376

kohekoh

2018/11/13 04:27

このようなライブラリがあるとは… 知りませんでしたありがとうございますちなみに from scipy.stats import multivariate_normal multivariate_normal.pdf(x,mean,cov) とやったときに，値が異なるのですが，これは自分のコードが間違っているのでしょうか

magichan

2018/11/13 05:13

A = 1 / ((2. * np.pi) ** (x.size/2.0)) なのでは？

magichan

2018/11/13 05:14

あと既に解決済みとなっているのでよいのですが、私の環境ではnumpyでの計算のほうがあきらかに高速なのですが、その点は問題ないのでしょうか？

kohekoh

2018/11/13 05:21

そこでした．ありがとうございます numpyでの計算というのはどのようなものですか？

kohekoh

2018/11/13 05:21

自分が書いているコードではないですよね

kohekoh

2018/11/13 05:25

たしかに，間違いを正したら，だいぶ計算が速くなりましたそれでもscipyと同じくらいの速さなのですがどこか改善点がありますか？

magichan

2018/11/13 05:41

いえ、kohekohさんの環境にてscipyとnumpyでの計算で速さに違いがないというのであれば全く問題ありません。ただ私の環境で5次元の正規分布での計算をそれぞれ10000回ループして時間を計測してみたところ、３倍近くnumpy版（kohekohさんコード）の方が早かったので、そもそもの課題である「高速化したい」が解決したのかが疑問に思っただけです。

kohekoh

2018/11/13 05:46

なるほどですまだ小さい次元かつ，ループ回数も少なかったのでもしかしたら自分のコードのほうが速くなるのかもしれません間違いを訂正していただいたおかげで，だいぶ速くなったのでよかったですありがとうございます

magichan

2018/11/13 05:49

あと、若干ですが、meanとcovを numpy配列にしておくと１割程度速くなります

kohekoh

2018/11/13 05:54

あ，そうなんですねありがとうございます普通にnp.array()で囲めばいいんですかね