質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.36%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

4906閲覧

高次元データでカーネル密度推定を行った際に発生するエラーの原因を知りたい

退会済みユーザー

退会済みユーザー

総合スコア0

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2020/08/31 04:25

前提・実現したいこと

いつもお世話になっております。
Pythonで密度推定を行っているのですが、
データの次元数を増やすとエラーが発生します。
このエラーなぜ発生するのか原因が理解できず、ご質問させていただきました。
(発生原因をご教示いただけますと幸いです)

発生している問題・エラーメッセージ

次元数が4次元以上になると以下のようなエラーが発生することがあります。 発生割合は5割程度です。(次元数が増えるほどエラー発生確率も増加) --------------------------------------------------------------------------- LinAlgError Traceback (most recent call last) <ipython-input-11-ce4c335d8dd1> in <module> 2 xy = np.vstack([a1,a2,a3,a4,a5]) 3 kernel = stats.gaussian_kde(xy) ----> 4 z_est = kernel.evaluate(xy) ~\program\anaconda\lib\site-packages\scipy\stats\kde.py in evaluate(self, points) 244 result = zeros((m,), dtype=float) 245 --> 246 whitening = linalg.cholesky(self.inv_cov) 247 scaled_dataset = dot(whitening, self.dataset) 248 scaled_points = dot(whitening, points) ~\program\anaconda\lib\site-packages\scipy\linalg\decomp_cholesky.py in cholesky(a, lower, overwrite_a, check_finite) 89 """ 90 c, lower = _cholesky(a, lower=lower, overwrite_a=overwrite_a, clean=True, ---> 91 check_finite=check_finite) 92 return c 93 ~\program\anaconda\lib\site-packages\scipy\linalg\decomp_cholesky.py in _cholesky(a, lower, overwrite_a, clean, check_finite) 38 if info > 0: 39 raise LinAlgError("%d-th leading minor of the array is not positive " ---> 40 "definite" % info) 41 if info < 0: 42 raise ValueError('LAPACK reported an illegal value in {}-th argument' LinAlgError: 1-th leading minor of the array is not positive definite

該当のソースコード

python

1# import 2import numpy as np 3from scipy import stats 4import matplotlib.pyplot as plt 5%matplotlib inline 6 7# データ作成(テキトーに生成) 8N1 = np.random.normal(size=400) 9N2 = np.random.normal(scale=0.5, size=400) 10N3 = np.random.normal(scale=0.5, size=400) 11N4 = np.random.normal(scale=0.5, size=400) 12N5 = np.random.normal(scale=0.5, size=400) 13N6 = np.random.normal(scale=0.5, size=400) 14 15a1 = N1+1*N2 16a2 = N1-1*N2 17a3 = N1+1*N3 18a4 = N1-1*N3 19a5 = N1+1*N4 20a6 = N1-1*N4 21a7 = N1+1*N5 22a8 = N1-1*N5 23a9 = N1+1*N6 24a0 = N1-1*N6 25 26# 密度推定(a4以上にするとエラーが発生) 27xy = np.vstack([a1,a2,a3]) 28kernel = stats.gaussian_kde(xy) 29z_est = kernel.evaluate(xy) 30 31# 可視化 32x = a1 33y = a2 34plt.scatter(x, y, c=z_est)

試したこと

3次元まではエラーは発生しませんでした。(30回程度試した)
4次元以上では5割ほどの確率でエラーが発生しました。
(次元数が増えるほどエラー発生確率も増加)

補足情報(FW/ツールのバージョンなど)

python3.7
anaconda corei5

以上、ご助力いただけますと幸いです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

自己回答になりますが、
1:この問題を解決することは困難(evaluate時のコレスキー分解による問題)
2:sklearn以外のkernel densityを計算できるライブラリーでは、色々問題があって高次元では算出できない(webではできると書いている人が多いが、3次元以上をまともに調査した結果は無い)

ということで、結局sklaernのkerneldensityをCVさせてbandwidthを決定して使っています。
ただ、sklearnはscipyとかと計算法が違うので若干違いは出ます
(違いが出ても、どちらもどうせ真の値からはずれるので問題ないです)

たぶんこれ以外に現状、あっさり解決する方法はなさそうです。
誰かの参考になれば幸いです。

投稿2020/10/14 05:38

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問