確率密度とは何を表しているのでしょうか？

総合スコア21956

2020/02/09 11:29 編集

ご回答ありがとうございます。 >、確率密度関数 f(x) の値が大きいところは、そのあたりの x の値が現れる可能性が高いという理解でいいと思います。こちらなのですが、単純に、例えば追記させて頂きました画像の左側の図ですと、x軸の「0.1」が一番曲線の頂点が高い位置にある為、「0.1」が一番データに影響を及ぼす確率が高いといった感じでしょうか...?

2020/02/09 12:22 編集

追記しました。統計学では、データ [0.1,0.1,0.1,0.2] はなんらかの確率分布から得られたいくつかの値 (標本) と考えます。 0.1 のところが高いということは、さらに追加でいくつかの値が得られたとして、その値が 0.1 近辺である可能性が高いと解釈できます。ただし、この確率密度関数いうのは、今持っている [0.1,0.1,0.1,0.2] というデータから推定したものなので、実際は違うかもしれません。例えば、コイントスを10回したとして、表が8回、裏が2回でたから、表が出る確率は 4/5 で裏は1/5だと推定するのは、たまたま10回投げたら表が多くでただけであって、実際は違うかもしれないという話になります。この推定はデータの量が多ければ多いほど信頼できるものになります。コイントスを1万回して表が5010回、裏が4990回出たとしたら、表と裏が出る確率はどちらもほぼ 1/ 2 なのだという推定はある程度信頼が持てます。

2020/02/09 13:36 編集

ご返信及び、追記ありがとうございます。自分の勉強不足もあり、分からない部分も多いのですが、ご回答頂きました「0.1 のところが高いということは、さらに追加でいくつかの値が得られたとして、その値が 0.1 近辺である可能性が高いと解釈できます。」こちらの部分は理解することができたかもしれません。つまり、「0.1」の部分が高いということは、次に新たにデータが入ってきたとして、その値が「0.1」に近い値である可能性が高いということでしょうか...?そうだとしますと、今回のような確率密度関数を用いて、例えば、「0.5」が出る可能性(標本にないデータ)を確率として出すということは、用途としては使われないということになってきますでしょうか...? 重ね重ね申し訳ないのですが、ご助言いただけましたら幸いです...

2020/02/09 14:10

確認ですが、確率密度関数が定義されるのは、連続型の確率変数についてです。離散型: サイコロの目のようにとり得る値が数えられるケース連続型: 身長のようにとり得る値が無限個考えられるケース ---- > 次に新たにデータが入ってきたとして、その値が「0.1」に近い値である可能性が高いということでしょうか...? そう解釈していいですが、注意点として、それは今得られているデータを使って推定した結果を元に解釈した結果であるということです。データが少ない (今回のように4つだけ) とその推定は信頼できません。ある程度、データがあって推定した確率密度関数で 0.1 あたりが山になっているのであれば、その解釈は信頼できます。 > そうだとしますと、今回のような確率密度関数を用いて、例えば、「0.5」が出る可能性(標本にないデータ)を確率として出すということは、用途としては使われないということになってきますでしょうか...? 得られる値が [0.48, 0.51] である確率 P(0.48 <= X <= 0.51) は確率密度関数を [0.48, 0.51] の範囲で積分すれば得られます。ただ、値がちょうど 0.5 になる確率 P(X = 0.5) は0になり、考える意味がないので、「ちょうど 0.5 になる確率を調べる用途としては確率密度関数は使われない」ということになります。実際、0.5という値が得られたのに、それが起きる確率が0というのは直感に反すると思うかもしれませんが、例えば、以下のリンクを見てみてください。確率密度関数～ある事象の起こる確率はゼロ！？～ https://akitoch.com/probability-density-function-20190727/

2020/02/10 00:26

誠にご丁寧にご解説頂きましたおかげで、大分理解できて参りました。お手数をおかけし、恐縮でございますが、最後に、２点ほどどうしても疑問な点があり、教えて頂きたい部分がございます... １点目は「y」の値です。自分の質問本文に追記させて頂きました画像には、２つのグラフで「y」の値が、一方は少数、一方は整数となっておりますが、これは何故かがわかりません。また、can110さんのご回答で、「描かれた曲線とx軸とを囲む領域の面積がデータ値の出現個数の総数になるように補正、正規化された値だということのようです。」とあるのですが、仮に左側の画像の総面積を求めてみますと、x軸が「0.0 ~ 0.3」の為、「0.3」y軸を大体ではありますが「6」と考えた場合、「0.3 × 6 ÷ 2」 = 「0.9」となります。こちらのデータ値の出現個数の総数が「0.9」であるという意味がいまいち分からない為、ご助言頂けましたら幸いです...

2020/02/10 15:59 編集

追記しました。 norm_hist=False にすれば、ヒストグラムの棒の高さ = そのビンに属するデータ数になります。 norm_hist=True の場合、正規化されたヒストグラムになります。正規化されたヒストグラム、KDE で推定した確率密度関数の y 軸の値の解釈は、データ数は関係なく、確率密度と解釈します。どちらも不明な真の確率密度関数を近似するのが目的です。

hayataka2049

2020/02/10 22:52

> norm_hist=False にすれば、ヒストグラムの棒の高さ = そのビンに属するデータ数になります。 norm_hist=Falseは事実上意味を持ちません。kdeを使うのであれば強制的に正規化されたヒストグラムがプロットされるからです。 https://seaborn.pydata.org/generated/seaborn.distplot.html ただしhist_kwsが優先されるため、こちらに{"density":False}を指定することで正規化されていないヒストグラムをプロットすることは可能です。PDFの軸を分けないでやったところであんまり意味がないので、細かくカスタマイズしたい場合は自分で別々にプロットする処理を書いた方が良いと思いますが。

2020/02/11 02:30 編集

追記ありがとうございます... >通常、ヒストグラムは y 軸は各ビンに属するデータ数 (頻度値) ですが、この正規化が有効の場合、棒の面積の合計が1となるように棒の高さが調整されますこちらなのですが、左側の図において、棒の面積を求めてみました所、ピッタリデータ数の合計と一致しました。正規化されていて、実際はy軸のメモリがデータ数であった所、調整されていると言った訳だったのですね..しかしながら、実際の所、.単純にy軸のメモリをデータ数とした方が分かりやすい気がしたのですが、これは何故このような一見分かりにくい仕様となっているのかと、初学者ながら疑問ではございます...

2020/02/11 02:38

＞この計算の解釈は、確率変数 X は実数の値をとるので、(-∞, +∞) の間の値をとる確率は100%であるということを言っています。なんとなく分かった気がいたします。言ってしまえば、全てのデータが含まれていることの証明だということですね

2020/02/11 07:26 編集

> hayataka2049 さんコメントありがとうございます。仕様についてよく確認していませんでした。 norm_hist=False でも kde=True の場合は正規化されてしまうので、正規化したくない場合は hist_kws={"density":False} を指定するのが、どのような場合でも効くのでよさそうですね。 > aae_11 さん > しかしながら、実際の所、.単純にy軸のメモリをデータ数とした方が分かりやすい気がしたのですがこれは何故このような一見分かりにくい仕様となっているのか distplot() は、名前にあるように、probability distribution (確率分布) をプロットするのが目的の関数のため、デフォルトでは KDE で推定した確率密度関数と正規化されたヒストグラムが描画されるようになっています。 y 軸はデータ数としたヒストグラムを描画するのが目的の場合は、seaborn は使わないで、matplotlib の hist 関数を使ったほうが、混乱は少ないと思います。こちらはデフォルトで、y 軸はデータ数となっています。 https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.hist.html

2020/02/11 08:31

ご返信ありがとうございます。正直申しまして、ご回答頂いた大半の部分は分からない状況ではあるのですが、自分が機械学習の勉強を続け、また、高度な内容が理解できるようになった際は、再度ご回答を見返させて頂きたいと思います。この度は、ご親切にご解説くださりありがとうございました

行動規範の内容に同意します

What is y axis in seaborn distplot?にてほぼそのままの質問と回答がありましたので、まずは一読ください。

正直「確率密度」とは何かなどが~~いまいち~~ほぼほぼ理解できていないのですが、Prasann Barotさんの回答をgoogle翻訳した結果を引用します。

ANS->密度プロットのy軸は、カーネル密度推定の確率密度関数です。ただし、これは確率ではなく確率密度であると指定するように注意する必要があります。違いは、確率密度とは、x軸上の単位あたりの確率です。実際の確率に変換するには、x軸上の特定の間隔の曲線の下の領域を見つける必要があります。やや紛らわしいことに、これは確率ではなく確率密度であるため、y軸は1より大きい値を取ることができます。

つまりy軸は確率密度を示す値ですが、描かれた曲線とx軸とを囲む領域の面積がデータ値の出現個数の総数になるように補正、正規化された値だということのようです。
これは以下のようなコードにて簡単な図を描くことで確かめられます。

以下の図において右側はx値が左側の10倍であるためy軸の値は1/10になっています。
またざっと目視で曲線とx軸で囲まれた領域の面積を求めてみます。
どちらも約1.25となり、実際の出現個数の総数4と、少し離れた値になっていますが、これは推定の仕方、distplotでデフォルトで使用している確率密度関数の性質に起因するものです。

python
1import matplotlib.pyplot as plt
2import seaborn as sns
3import numpy as np
4
5print(sns.__version__) # 0.9.0
6
7fig, (ax1, ax2) = plt.subplots(1,2)
8sns.distplot([0.1,0.1,0.1,0.2], ax=ax1)
9sns.distplot([1,1,1,2], ax=ax2)
10plt.show()

曲線の意味

この図の曲線(確率密度関数)を用いると、与えられたデータ群以外のデータ値の出現確率（個数）を推定することができます。
たとえば左側の図においてx=0.075というデータ値の出現確率（個数）は以下によって求めることができます。

今x値から上に直線を伸ばして曲線とそれに交わった点のy軸の値を見ます。この場合は約10になります。
これにx=0.075を掛けて0.75個という値がx=0.075の出現確率（個数）となります。
ただ、直感的にはもう少し大きな値になるのが自然そうで、あまり当てにならない感じもします。

ということでPrasann Barotさんの回答の続き

密度プロットの唯一の要件は、曲線下の総面積が1つに統合されることです。私は一般に、密度プロットのy軸を、異なるカテゴリ間の相対的な比較の値としてのみ考える傾向があります。

という回答になっているのかと思います。

投稿2020/02/08 12:41

編集2020/02/09 05:07

総合スコア38262

2020/02/08 14:37

ご回答ありがとうございます。誠に、丁寧にご説明頂いているにも関わらず申し訳ないのですが、何故左側の図では「x軸」が「0.1」、「0.2」と少数である場合に、「y軸」が整数であり、右側の図では「x軸」が整数であると、「y軸」が少数になるのかが分からないです...

2020/02/08 14:41

「y軸」は一体何を表しているのかといったことが、ピンとこない状態でございます... >またざっと目視で縦軸と横軸の値を掛算して、曲線下の面積が1であることが分かりますこちらですが、仮に左側の図であった場合、具体的な数値としては、x軸、y軸どの部分を掛け合わせましたら、答えが導きだせますでしょうか...?

2020/02/08 14:48

先に確認なのですが「積分」という考え、この場合は曲線とx軸とを囲む範囲の面積の求め方は理解できますでしょうか？

2020/02/08 14:53

いえ、積分、面積の求め方共に分からないといった状態です...

2020/02/08 15:04

そうですね…右側の図で説明します。求めたい領域をx軸の０～1,1～2,2～３の三つの部分に分けます。左側と右側はざっくり幅１高さ0.5の三角形なので面積は0.25+0.25=0.5 真ん中は幅1高さ0.5の長方形なので面積は0.5.合わせて1になります。左側の図の領域も同じように求めると１になると分かるかと思います。横(x)軸の値は、ご理解されているようにデータ(値)を表しています。縦(y)軸の値は、いま求めた領域の面積が１となるように補正（正規化）された（確率の）値ということになります。

2020/02/08 21:45

ご丁寧にご解説頂きましてありがとうございます。おかげで、面積の求め方を理解することが出来ました。すみません...後一点お聞きしたいことがあるのですが、「縦(y)軸の値は、いま求めた領域の面積が１となるように補正（正規化）された（確率の）値ということになります。」こちらの「補正された確率の値」というのがいまいち分からないのですが、これが分かったことで、データの何が分かるのでしょうか...? いまいち、どうもピンとこず...度々のご質問で申し訳ないです...

2020/02/09 00:26

> これが分かったことで、データの何が分かるのでしょうか...? 回答に追記しました。この曲線（関数）によって、元のデータ群以外の値の出現確率を推定することができます。

2020/02/09 00:55

あれれ？出現確率というより出現回数かな？回答に書いている面積＝確率＝１という部分、こちらが勘違いしているかも。ちょっと考えなおして回答の修正を試みてみます。

2020/02/09 01:34 編集

ということで、サンプルデータを見直して全面的に回答を修正しました。面積＝データの出現確率というより出現総数（データの個数の総数）のようです。よって曲線から推定される値も確率(%)ではなく個数のようです。面積の求め方については変わりはありません。

2020/02/09 04:56 編集

追記ありがとうございます。自分も、can110さんがご回答に記載くださいましたコードを、jupyter notebookにて、実行させてみました。その結果は質問本文にて、追記させて頂きました。そして、自分の環境で実行し出た結果とcan110さんのご回答を照らし合わせてみました。＞今x値から上に直線を伸ばして曲線とそれに交わった点のy軸の値を見ますまずこちらなのですが、左側の図では「x」の値が「0.1」の時、曲線と交わる位置はおよそ「y軸」が「8」辺りであるかと思います。そのため「8」を「x」の値、0.1に掛け合わせ、「0.8」といった結果が得られるかと思います。そうなった場合、「0.1」がデータ全体に含まれている確率はおよそ「0.8」である、といった理解で合っておりますでしょうか...? このことから、自分の推測ではあるのですが、can110さんの編集前のご回答で「1 = 100%」であるとあったのですが、これは全データのおよそ「80%」程「0.1」が含まれているといった意味になってくるのではないかと思っております... もし、間違いな部分などございましたら、お手数をかけ申し訳ないのですが、ご指摘頂けましたら幸いです...

2020/02/09 05:03 編集

あ...しかし、コメントで「1 = 100%」というのは否定されていますよね... となりますと、全体が「１」である内の「０.８」個程含まれているということですかね...?

2020/02/09 05:15

まず、修正した回答に図が抜けていました。すみません。次に図を追加したのですが、結果が異なりますね… ということで、seabornのバージョンを確認ください。こちらは「0.9.0」です。私の回答はこの回答の図を基にしており、面積は確率（＝１）ではなく個数（＝４）と解釈しています。よって左側の図でx=0.1であればy=20なので0.1*20=2個となります。実際（正解）は３個ですが。

ozwk

2020/02/09 06:18 編集

＞これにx=0.075を掛けて0.75個という値がx=0.075の出現確率（個数）となります。いや、例えば x = 0.075~0.076 (Δx=0.001)の範囲が出現する確率が確率密度関数がこの範囲であまり変化しないと近似して大体10なので 10*0.001 = 0.01 = 1% という意味ではヒストグラムについてはkde=Falseにして確率密度分布を非表示にするとすると2つのデータでどちらも縦軸が同じ(0.1/1が3、0.2/2が1)になるので、確率密度分布の見た目に合うようにスケーリングしているのではないかと思います。

2020/02/09 05:50

自分の環境では、seabornは「0.10.0」でした。ご指摘の通り、バージョンの違いによるものかもしれません... can110さんにご提示頂きました左側の図では、曲線下の総面積は、x軸が「0.05 ~ 0.15」までで0.1なので、0.1×20 ÷2 = 「１」であり、「0.15 ~ 0.25」までで「0.１」y軸はおよそ「6」なので、0.1×6÷2 = 「0.3」このことから、総面積は「0.4」になるのではないでしょうか...? >、面積は確率（＝１）ではなく個数（＝４）と解釈しています。こちらなのですが、何故「4」になるかが分からなくて... もし、お願いできましたら、計算方法など教えて頂けましたら幸いです...

2020/02/09 06:25

> ～左側の図では、曲線下の総面積は、x軸が「0.05 ~ 0.15」までで0.1 >なので、0.1×20 ÷2 = 「１」であり、「0.15 ~ 0.25」までで「0.１」y軸はおよそ「6」なので、>0.1×6÷2 = 「0.3」このことから、総面積は「0.4」になるのではないでしょうか...? x=0.1, y=20 を頂点とし幅(0.15-0.05)=0.1である三角形Aの面積=0.1*20/2=1 x=0.2, y= 5 を頂点とし幅(0.25-0.15)=0.1である三角形Bの面積=0.1*5/2=0.25 面積を足して1.25を得ました。また三角形Bの高さを6とみなすと1.3を得ます。以上、少し少なめに見積もった面積が確率「1」よりも明らかに大きそうなので個数「4」と推測しました。ただ、そもそも前提となる曲線がaae_11さんの結果とは異なるため、混乱しております…

2020/02/09 06:34 編集

ご返信ありがとうございます。理解が悪く申し訳ありません... >以上、少し少なめに見積もった面積が確率「1」よりも明らかに大きそうなので個数「4」と推測しました。こちらなのですが、何故面積が、「１」以上である場合に、データの個数(数)は「４」になるのでしょうか...? そもそも面積が「１」であるということは、何を表しているのかといった部分が分からない状況です...

2020/02/09 06:40 編集

ozwkさん、コメント＆ご指摘ありがとうございます。ご指摘のとおり、ある一点0.075としてではなく、0.075~0.076 (Δx=0.001)という範囲の面積という計算が正しいですね。ただ、そもそもの確率分布関数（曲線）がsnsのバージョン違いのためかがaae_11と異なっており kde=True時のy軸の値の根拠、具体的にどのような計算で求めているのか推測でも分からず混乱しておりますが… こちらの図、および個数という解釈が誤りであるように思えてきました。（ちゃんと理論およびseabornの実装を理解すれば解決するはずですが、アタマが追いつきません）

hayataka2049

2020/02/10 01:56 編集

愉快なことに、distplotのbins引数を変えるとy軸のスケールは比例するかのように増加します。y軸の値を読むと、ヒストグラムの方はbinsに比例して値が大きくなります（グラフ上は同じ位置にあるように見える）。PDFの方はbinsに比例して値が大きくなったりはしません（グラフ上は潰れていくように見えます）。 import seaborn as sns import matplotlib.pyplot as plt bins_lst = [5, 10, 20, 40, 80] fig, axes = plt.subplots(ncols=5) for b, ax in zip(bins_lst, axes): sns.distplot([0.1, 0.1, 0.1, 0.2], bins=b, ax=ax) plt.show() この挙動がどこから来ているのかと言うと、実はmatplotlibのhistのdensityパラメータをTrueにしていることに由来します。 seaborn側のコードはこの辺です。 https://github.com/mwaskom/seaborn/blob/master/seaborn/distributions.py#L219 matplotlibはこちらを見てください。 https://matplotlib.org/api/_as_gen/matplotlib.pyplot.hist.html > density : bool, optional > If True, the first element of the return tuple will be the counts normalized to form a probability density, i.e., the area (or integral) under the histogram will sum to 1. This is achieved by dividing the count by the number of observations times the bin width and not dividing by the total number of observations. こんなのも実行してみるとわかりやすいかもしれません。 import numpy as np import matplotlib.pyplot as plt scales = list(range(5)) fig, axes = plt.subplots(ncols=5) for s, ax in zip(scales, axes): ax.hist(np.array([0.1, 0.1, 0.2, 0.2])*10**s, density=True) plt.show() 直感的には値の区間が広くなればそれだけ「近い値は稀になる」ので、こういう仕様も理にかなっているのかもしれません。個人的にはかなり違和感がありますが。 hist_kws={"density":False}とするとヒストグラムの方は観測度数がそのまま出てきます。PDFの方もできればなんとかしたいんですが、すぐに見つからなかったので提示できません。左右にy軸のあるグラフにして右は度数、左はPDFの値に対応づけられたらいいんですが、seabornがやってくれないので、そういうのがほしかったら自分で書くべきかもしれません。