2Dのカーネル密度推定

データの母集団分布を、2Dカーネル密度推定 (kernel density estimation, KDE) という手法で推定しようと考えております。

現在複数のソフトを使用してみたのですが、KDEを行うにあたり根本的な原理がよくわからなくなってしまったので、質問させていただきます。

2つのサンプル数の異なる母集団がありまして(例えば10サンプルと50サンプル等です)、それをもとに2Dカーネル密度図(X軸-Y軸)を作成し、対比したいと考えております。しかしながら、2つの母集団のsample数が異なるため、両者をnormalizationし、相対的密度を描画したいと考えております。

言い換えますと、例えば２つのサンプル数がともに50と仮定したときの分布の差を描きたいのですが、そもそもKDEは確率密度関数なので、KDEを作成するということは自動的に相対的な密度 (Normalized value)を見ていることになるのでしょうか？

言葉足らずでしたら、再度説明を追加させていただきます。
アドバイスいただけないでしょうか(できれば複数の方のコメントいただけるとありがたいです)。

行動規範の内容に同意します

回答2件

そもそもKDEは確率密度関数なので、KDEを作成するということは自動的に相対的な密度 (Normalized value)を見ていることになるのでしょうか？

そうです

投稿2020/08/10 07:00

shimiken

総合スコア368

具体的な方法が不明なので、的外れな回答になるかもしれませんがコメントします。

KDEを関数として学習させることができれば、任意の点の確率密度が計算できるので、サンプルの件数の差異は気にすることなく比較することが可能です。
参考までに比較するコードを以下に示します。

python
1import numpy as np
2import scipy.stats as stats
3
4np.random.seed(1)
5
6### 元データ
7
8x1 = stats.norm.rvs(loc=1,scale=0.2,size=100)
9y1 = x1*2+stats.norm.rvs(loc=0,scale=0.5,size=100)
10D1 = np.concatenate([x1.reshape([1,100]),y1.reshape([1,100])],axis=0)
11
12### 比較対象データ（その１）　明らかに違うケース
13
14np.random.seed(2)
15
16x2 = stats.norm.rvs(loc=1.5,scale=0.2,size=50)
17y2 = x2**1.2-x2+stats.norm.rvs(loc=0,scale=0.5,size=50)
18D2 = np.concatenate([x2.reshape([1,50]),y2.reshape([1,50])],axis=0)
19
20### 比較対象データ（その２）　元データと同じだが件数を変えたケース
21
22np.random.seed(3)
23
24x3 = stats.norm.rvs(loc=1,scale=0.2,size=50)
25y3 = x3*2+stats.norm.rvs(loc=0,scale=0.5,size=50)
26D3 = np.concatenate([x3.reshape([1,50]),y3.reshape([1,50])],axis=0)
27
28### KDE関数の学習
29
30kde1 = stats.gaussian_kde(D1)
31kde2 = stats.gaussian_kde(D2)
32kde3 = stats.gaussian_kde(D3)
33
34### 確率密度を比較するためのデータ作成
35### 取得したサンプルを使用
36
37test1 = np.concatenate([D1,D2],axis=1)
38test2 = np.concatenate([D1,D3],axis=1)
39
40### 元データと比較対象（その１）をKLダイバージェンスで比較
41
42p = kde1.pdf(test1)
43q = kde2.pdf(test1)
44print(stats.entropy(p, q) )
45
46### 元データと比較対象（その２）をKLダイバージェンスで比較
47
48p = kde1.pdf(test2)
49q = kde3.pdf(test2)
50print(stats.entropy(p, q) )

上記を実行すると、その２のほうが元データの分布に近似していることが示されます。

上記は分布の比較にKLダイバージェンスを用いていますが、他のものでも構わないので、適宜、置き換えてください。また、比較するためのデータですが、上記の場合は手元データをそのまま使用していますが、任意のデータで構いません。

投稿2020/08/08 22:25

R.Shigemori

総合スコア3376

TH255

2020/08/23 05:57

御回答ありがとうございます。参考にさせていただきます。 2Dカーネル密度推定というのは2Dの範囲の山を全て足し合わせると1になったりするのでしょうか。そうでなければ2つの密度分布の比較というのはできないと思いますが。

R.Shigemori

2020/08/23 08:26

カーネル密度推計は確率密度関数を推計しているので、その定義通りに範囲域を積分すると1になります。『2Dの範囲の山を全て足し合わせる』が範囲域の積分を意味しているのであれば、答えはYesですが、手元にあるデータを足し合わせるということであればNoです。これはデータがない部分についてもある程度の推計をしているためです。このあたりの推計の程度や手法は、kdeを定義する際の引数で設定できるようなので、公式ドキュメントで確認してください。

行動規範の内容に同意します

あなたの回答