編集履歴

回答編集履歴

2020/02/11 07:19

投稿

スコア21960

answer CHANGED Viewed

@@ -158,4 +158,75 @@
 「カーネル密度推定の確率密度関数 (オレンジ)」は「真の確率密度関数」と一致して重なっている。
 「正規化されたヒストグラム(緑)」も「真の確率密度関数」とほぼ一致している。
-![イメージ説明](54f7b2ad4dee3ed965e7a2a3d54b8dc1.png)
+![イメージ説明](54f7b2ad4dee3ed965e7a2a3d54b8dc1.png)
+## 追記 distplot の仕様確認
+引数の優先度としては、norm_hist < kde < hist_kws のようですので、
+正規化したくない場合は、`kde=False` または `hist_kws={"density": False}` を指定するのがよさそうです。
+| kde | density | ヒストグラム |
+| --- | --- | --- |
+| False | False | 正規化されない |
+| False | True | 正規化される |
+| True | False | 正規化されない |
+| True | True | 正規化される |
+```python
+import matplotlib.pyplot as plt
+import numpy as np
+import seaborn as sns
+sns.set()
+np.random.seed(0)
+x = np.random.randn(1000)
+fig, axes = plt.subplots(2, 2, figsize=(8, 8))
+axes = axes.ravel()
+axes[0].set_title("kde=False, density=False")
+sns.distplot(x, kde=False, hist_kws={"density": False}, ax=axes[0])
+axes[1].set_title("kde=False, density=True")
+sns.distplot(x, kde=False, hist_kws={"density": True}, ax=axes[1])
+axes[2].set_title("kde=True, density=False")
+sns.distplot(x, kde=True, hist_kws={"density": False}, ax=axes[2])
+axes[3].set_title("kde=True, density=True")
+sns.distplot(x, kde=True, hist_kws={"density": True}, ax=axes[3])
+plt.show()
+```
+![イメージ説明](d73de753672cc8c90ac87d8c90e118bd.png)
+| kde | norm_hist | ヒストグラム |
+| --- | --- | --- |
+| False | False | 正規化されない |
+| False | True | 正規化される |
+| True | False | 正規化される |
+| True | True | 正規化される |
+```
+import matplotlib.pyplot as plt
+import numpy as np
+import seaborn as sns
+sns.set()
+np.random.seed(0)
+x = np.random.randn(1000)
+fig, axes = plt.subplots(2, 2, figsize=(8, 8))
+axes = axes.ravel()
+axes[0].set_title("kde=False, norm_hist=False")
+sns.distplot(x, kde=False, norm_hist=False, ax=axes[0])
+axes[1].set_title("kde=False, norm_hist=True")
+sns.distplot(x, kde=False, norm_hist=True, ax=axes[1])
+axes[2].set_title("kde=True, norm_hist=False")
+sns.distplot(x, kde=True, norm_hist=False, ax=axes[2])
+axes[3].set_title("kde=True, norm_hist=True")
+sns.distplot(x, kde=True, norm_hist=True, ax=axes[3])
+plt.show()
+```
+![イメージ説明](58f7efa143a579814f417d172a8034c8.png)

2020/02/11 07:19

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -155,7 +155,7 @@
 plt.show()
 ```
-「カーネル密度推定の確率密度関数」は「真の確率密度関数」と一致して重なっている。
+「カーネル密度推定の確率密度関数 (オレンジ)」は「真の確率密度関数」と一致して重なっている。
-ヒストグラムも「真の確率密度関数」とほぼ一致している。
+「正規化されたヒストグラム(緑)」も「真の確率密度関数」とほぼ一致している。
 ![イメージ説明](54f7b2ad4dee3ed965e7a2a3d54b8dc1.png)

2020/02/10 16:06

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -120,9 +120,10 @@
 ## 補足
 正規化されたヒストグラム、カーネル密度推定で推定した確率密度関数ですが、どちらも(不明な)真の確率密度関数を近似するのが目的です。
-非常に沢山のデータがあり、ビンの幅を小さくした正規化されたヒストグラムを作成すれば、それで真の確率密度関数を近似できます。
-曲線とx軸の間の面積を求めるのに、x 軸を細かい区間で分割して、長方形を敷き詰めて、メ面積を計算するというのが、リーマン積分の考え方なので、大量のデータを用意して、ビンの幅を小さくしたヒストグラムを作成するということは、まさに同じことをやっています。
+曲線とx軸の間の面積を求めるのに、x 軸を細かい区間で分割して、長方形を敷き詰めて、面積を計算するというのが、リーマン積分の考え方です。
+なので、大量のデータを用意して、ビンの幅を小さくした正規化されたヒストグラムを作成すれば、それで真の確率密度関数を近似できます。
 ![イメージ説明](1272ef9914eb2cf3a76697924a3ff623.png)
 リーマン積分の考え方

2020/02/10 16:05

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -86,4 +86,75 @@
 plt.show()
 ```
-![イメージ説明](f7ca8495379de0e9ea5450376c2e4894.png)
+![イメージ説明](f7ca8495379de0e9ea5450376c2e4894.png)
+## 追記
+> ２つのグラフで「y」の値が、一方は少数、一方は整数となっておりますが、これは何故かがわかりません。
+グラフの目盛りがすべて整数なら整数、小数が含まれるなら小数で表示するという matplotlib の仕様によるものなので、整数か小数かはグラフの表示上の問題であり、重要ではありません。
+注目するべきは、y 軸のスケールが左と右で大きく違うことでしょう。
+これは、他の回答者様のコメント欄で hayataka2049 さんがご指摘されていますが、ヒストグラムの正規化 (デフォルトで有効) によるものです。
+通常、ヒストグラムは y 軸は各ビンに属するデータ数 (頻度値) ですが、この正規化が有効の場合、棒の面積の合計が1となるように棒の高さが調整されます。
+数式で表すと、n 個のビンの幅が w1, w2, ..., wn、頻度値が f1, f2, ..., fn としたとき、
+w1 * f1 + w2 * f2 + ... + wn + fn = 1
+となるように f1, f2, ..., fn の値を正規化します。
+左のほうが右より棒の高さが高いのは、左の方はビンの幅が小さいので、棒の面積の合計が1にするためには棒の高さをその分高くする必要があるからです。
+棒の高さをそのビンに属するデータ数として解釈したい場合は distplot() で norm_hist=False を指定してください。
+この正規化の仕様は、内部でヒストグラム作成に使用している [numpy.histogram](https://docs.scipy.org/doc/numpy/reference/generated/numpy.histogram.html) から来ています。
+> また、can110さんのご回答で、「描かれた曲線とx軸とを囲む領域の面積がデータ値の出現個数の総数になるように補正、正規化された値だということのようです。」とあるのですが、
+> 仮に左側の画像の総面積を求めてみますと、x軸が「0.0 ~ 0.3」の為、「0.3」y軸を大体ではありますが「6」と考えた場合、「0.3 × 6 ÷ 2」 = 「0.9」となります。
+> こちらのデータ値の出現個数の総数が「0.9」であるという意味がいまいち分からない為、ご助言頂けましたら幸いです...
+曲線のほうは、先の回答の通り、推定した確率密度関数です。
+「描かれた曲線とx軸とを囲む領域の面積」とは、確率密度関数を (-∞, +∞) の区間で積分すると求められ、これは1になります。
+![イメージ説明](d830ee93683ef32890091eaed0eabaa9.gif)
+この計算の解釈は、確率変数 X は実数の値をとるので、(-∞, +∞) の間の値をとる確率は100%であるということを言っています。
+## 補足
+正規化されたヒストグラム、カーネル密度推定で推定した確率密度関数ですが、どちらも(不明な)真の確率密度関数を近似するのが目的です。
+非常に沢山のデータがあり、ビンの幅を小さくした正規化されたヒストグラムを作成すれば、それで真の確率密度関数を近似できます。
+曲線とx軸の間の面積を求めるのに、x 軸を細かい区間で分割して、長方形を敷き詰めて、メ面積を計算するというのが、リーマン積分の考え方なので、大量のデータを用意して、ビンの幅を小さくしたヒストグラムを作成するということは、まさに同じことをやっています。
+![イメージ説明](1272ef9914eb2cf3a76697924a3ff623.png)
+リーマン積分の考え方
+```python
+from scipy.stats import norm, gaussian_kde
+import numpy as np
+import matplotlib.pyplot as plt
+# 平均0、分散1の1変量正規分布に従う確率変数
+rv = norm(loc=0, scale=1)
+# 大量の標本を生成する。
+samples = rv.rvs(300000)
+# この得られた標本から元となる確率密度関数を推定する。
+kernel = gaussian_kde(samples)
+fig, ax = plt.subplots()
+# 確率密度関数を描画する。
+xs = np.linspace(-5, 5, 1000)
+ax.plot(xs, rv.pdf(xs), label="確率密度関数")
+ax.plot(xs, kernel(xs), label="KDE で推定した確率密度関数")
+# ヒストグラムを描画する。
+bins = np.linspace(-5, 5, 1000)
+ax.hist(samples, bins, density=True)
+ax.legend(loc="upper left")
+plt.show()
+```
+「カーネル密度推定の確率密度関数」は「真の確率密度関数」と一致して重なっている。
+ヒストグラムも「真の確率密度関数」とほぼ一致している。
+![イメージ説明](54f7b2ad4dee3ed965e7a2a3d54b8dc1.png)

2020/02/10 15:50

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -23,4 +23,67 @@
 確率密度関数の見方としては、**確率密度関数 f(x) の値が大きいところは、そのあたりの x の値が現れる可能性が高い**という理解でいいと思います。
-体系的に理解したい場合は [統計学](https://www.amazon.co.jp/s?k=%E6%95%B0%E7%90%86%E7%B5%B1%E8%A8%88%E5%AD%A6&__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&ref=nb_sb_noss_1) の教科書を当たると、最初のほうで必ず紹介されていると思うので、それを参照してください。
+体系的に理解したい場合は [統計学](https://www.amazon.co.jp/s?k=%E6%95%B0%E7%90%86%E7%B5%B1%E8%A8%88%E5%AD%A6&__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&ref=nb_sb_noss_1) の教科書を当たると、最初のほうで必ず紹介されていると思うので、それを参照してください。
+## 追記
+ストーリーとしては、以下のようになります。
+いくつかのデータが得られた
+↓
+データが得られた背景となる確率分布があるけど、それはわからない
+↓
+データから確率分布を推定する
+----
+統計学の考え方としては、まずなんらかの真の確率分布があり (現実ではこれはわからない)、データはその確率分布から得られた標本 (値の例) であると考えます。
+以下、例として、標準正規分布としておきます。
+```python
+from scipy.stats import norm, gaussian_kde
+import numpy as np
+import matplotlib.pyplot as plt
+# 平均0、分散1の1変量正規分布に従う確率変数
+rv = norm(loc=0, scale=1)
+fig, ax = plt.subplots()
+ax.plot(xs, rv.pdf(xs), label="確率密度関数")
+ax.legend(loc="upper left")
+ax.set_xlim(-5, 5)
+plt.show()
+```
+![イメージ説明](2a6bddf542a6b022c309d37e1752241f.png)
+このような分布があって、そこから1000 個の値が得られたとします。
+ヒストグラムを描画すると以下のようになります。
+![イメージ説明](822bcb6ec0b60af5ad05c049af7017ce.png)
+現実では、いくつかのデータが得られたとして、真の確率分布というのはわからないわけです。
+例えば、100人に身長を聞いて、[168, 172, 180, ...] と100人分のデータが得られたとして、その元となった真の確率分布というのはわかりません。
+わからないので、それを今持っているデータから推定するというのが、統計学の1つの目的になります。
+カーネル密度推定はその手法の1つです。
+カーネル密度推定を使って推定すると、以下のようになります。
+元の分布 (青) がわからなくても、データからある程度それに近い分布 (オレンジ) が得られました。
+```python
+# この得られた標本から元となる確率密度関数を推定する。
+kernel = gaussian_kde(samples)
+# 確率密度関数を描画する。
+xs = np.linspace(-5, 5, 1000)
+fig, ax = plt.subplots()
+ax.plot(xs, rv.pdf(xs), label="確率密度関数")
+ax.plot(xs, kernel(xs), label="推定した確率密度関数")
+ax.legend(loc="upper left")
+ax.set_xlim(-5, 5)
+plt.show()
+```
+![イメージ説明](f7ca8495379de0e9ea5450376c2e4894.png)

2020/02/09 12:11

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -23,4 +23,4 @@
 確率密度関数の見方としては、**確率密度関数 f(x) の値が大きいところは、そのあたりの x の値が現れる可能性が高い**という理解でいいと思います。
-きちんと理解したい場合は [統計学](https://www.amazon.co.jp/s?k=%E6%95%B0%E7%90%86%E7%B5%B1%E8%A8%88%E5%AD%A6&__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&ref=nb_sb_noss_1) の教科書を当たると、最初のほうで必ず紹介されていると思うので、それを参照してください。
+体系的に理解したい場合は [統計学](https://www.amazon.co.jp/s?k=%E6%95%B0%E7%90%86%E7%B5%B1%E8%A8%88%E5%AD%A6&__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&ref=nb_sb_noss_1) の教科書を当たると、最初のほうで必ず紹介されていると思うので、それを参照してください。