高次元データでカーネル密度推定を行った際に発生するエラーの原因を知りたい

前提・実現したいこと

いつもお世話になっております。
Pythonで密度推定を行っているのですが、
データの次元数を増やすとエラーが発生します。
このエラーなぜ発生するのか原因が理解できず、ご質問させていただきました。
（発生原因をご教示いただけますと幸いです）

発生している問題・エラーメッセージ

次元数が4次元以上になると以下のようなエラーが発生することがあります。
発生割合は5割程度です。（次元数が増えるほどエラー発生確率も増加）

---------------------------------------------------------------------------
LinAlgError                               Traceback (most recent call last)
<ipython-input-11-ce4c335d8dd1> in <module>
      2 xy = np.vstack([a1,a2,a3,a4,a5])
      3 kernel = stats.gaussian_kde(xy)
----> 4 z_est = kernel.evaluate(xy)

~\program\anaconda\lib\site-packages\scipy\stats\kde.py in evaluate(self, points)
    244         result = zeros((m,), dtype=float)
    245 
--> 246         whitening = linalg.cholesky(self.inv_cov)
    247         scaled_dataset = dot(whitening, self.dataset)
    248         scaled_points = dot(whitening, points)

~\program\anaconda\lib\site-packages\scipy\linalg\decomp_cholesky.py in cholesky(a, lower, overwrite_a, check_finite)
     89     """
     90     c, lower = _cholesky(a, lower=lower, overwrite_a=overwrite_a, clean=True,
---> 91                          check_finite=check_finite)
     92     return c
     93 

~\program\anaconda\lib\site-packages\scipy\linalg\decomp_cholesky.py in _cholesky(a, lower, overwrite_a, clean, check_finite)
     38     if info > 0:
     39         raise LinAlgError("%d-th leading minor of the array is not positive "
---> 40                           "definite" % info)
     41     if info < 0:
     42         raise ValueError('LAPACK reported an illegal value in {}-th argument'

LinAlgError: 1-th leading minor of the array is not positive definite

該当のソースコード

python
1# import
2import numpy as np
3from scipy import stats
4import matplotlib.pyplot as plt
5%matplotlib inline
6
7# データ作成（テキトーに生成）
8N1 = np.random.normal(size=400)
9N2 = np.random.normal(scale=0.5, size=400)
10N3 = np.random.normal(scale=0.5, size=400)
11N4 = np.random.normal(scale=0.5, size=400)
12N5 = np.random.normal(scale=0.5, size=400)
13N6 = np.random.normal(scale=0.5, size=400)
14
15a1 = N1+1*N2
16a2 = N1-1*N2
17a3 = N1+1*N3
18a4 = N1-1*N3
19a5 = N1+1*N4
20a6 = N1-1*N4
21a7 = N1+1*N5
22a8 = N1-1*N5
23a9 = N1+1*N6
24a0 = N1-1*N6
25
26# 密度推定（a4以上にするとエラーが発生）
27xy = np.vstack([a1,a2,a3])
28kernel = stats.gaussian_kde(xy)
29z_est = kernel.evaluate(xy)
30
31# 可視化
32x = a1
33y = a2
34plt.scatter(x, y, c=z_est)

試したこと

3次元まではエラーは発生しませんでした。（30回程度試した）
4次元以上では5割ほどの確率でエラーが発生しました。
（次元数が増えるほどエラー発生確率も増加）

補足情報（FW/ツールのバージョンなど）

python3.7
anaconda corei5

以上、ご助力いただけますと幸いです。

行動規範の内容に同意します

回答1件

ベストアンサー

自己回答になりますが、
１：この問題を解決することは困難（evaluate時のコレスキー分解による問題）
２：sklearn以外のkernel densityを計算できるライブラリーでは、色々問題があって高次元では算出できない（webではできると書いている人が多いが、3次元以上をまともに調査した結果は無い）

ということで、結局sklaernのkerneldensityをCVさせてbandwidthを決定して使っています。
ただ、sklearnはscipyとかと計算法が違うので若干違いは出ます
（違いが出ても、どちらもどうせ真の値からはずれるので問題ないです）

たぶんこれ以外に現状、あっさり解決する方法はなさそうです。
誰かの参考になれば幸いです。

投稿2020/10/14 05:38

退会済みユーザー

総合スコア0