区間[0,1]の一様分布からサンプリングした値の集合が、一様分布に従っているか判断する方法を知りたいです。
サンプリングした値の平均0.5、分散1/12 (0.0833) に近いかで判断する方法よりも正確な方法をお願いします。
平均・分散だけの判断だと等差数列0.005, 0.015, ..., 0.995は平均0.5、分散0.0833になります。
python
1statistics.mean([0.01 * i + 0.005 for i in range(100)]) # 0.5 2statistics.pvariance([0.01 * i + 0.005 for i in range(100)]) # 0.0833
しかし、0.2113を50サンプルと0.7887を50サンプルの集合も平均0.5、分散0.0833になり、等差数列と明らかに従う分布が異なりますが区別できません。
python
1statistics.mean([0.2113] * 50 + [0.7887] * 50) # 0.5 2statistics.pvariance([0.2113] * 50 + [0.7887] * 50) # 0.0833
分布間の距離といえばKL情報量とかを思い浮かべますが、サンプリング集合から計算する方法を知りたいです。別の方法でも構いません。
追記:
よくよく考えれば0.1区切りのヒストグラムでbinのサンプル数の分散を見れば十分かもしれません。
回答1件
あなたの回答
tips
プレビュー