質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.04%

matplotlibで一般正規分布の95%の部分を可視化する

解決済

回答 1

投稿

  • 評価
  • クリップ 2
  • VIEW 1,441

cloudspider

score 86

確率統計の勉強と同時にnumpyとmatplotlibの勉強も進めようと思い一般正規分布の描画をしてみました。

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1000)

μ = 5 # 平均値
σ = 3 # 標準偏差
N = 100000 # データの個数

r = np.random.normal(μ, σ, N) # 平均μ,標準偏差σの正規分布をN個生成
r2 = r[np.where((r <= µ+1.96*σ)&(r >= µ-1.96*σ))] # rの95%の範囲
# print(len(r2) / len(r) * 100) # 94.979%

plt.hist(r,  bins=100, color='#ff0000', alpha=0.5)
plt.hist(r2, bins=100, color='#000000', alpha=0.5)
plt.show()

赤色の一般正規分布の95%に当たる部分を黒のヒストグラムで重ねようと思ったのですが、横軸についてはちゃんとできているのですが、縦軸についてが上手く行っていません。

コードを見たところ問題無いように思うのですが、どうして95%の部分の上部が黒で描画されていないのでしょうか。

5-1.96*3 <= 横軸 <= 5+1.96*3
の範囲は全部黒になると思うのですが、上手く行っていません。
イメージ説明

どなたかわかる方教えていただけませんでしょうか。
よろしくお願いします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+3

意図しない結果となる原因は 全体表示と±1.96SD表示の時でデータ範囲が違うために、ヒストグラムの区間設定(bins)が異なってしまったためです。
その結果、全体表示に比べ、±1.96SD表示の区間は狭く設定されてしまい、その分ヒストグラムも小さく表示されてしまっております。

rangeパラメータを設定し、2つのヒストグラムのbinsが同じ範囲をとるように設定するとよいかと思います。

import numpy as np
import matplotlib.pyplot as plt

mu = 5
sigma =  3
N =100000

r = np.random.normal(mu,sigma,N)
r2 = r[np.where((r <= mu + 1.96 * sigma) & (r >= mu - 1.96 * sigma))]

plt.hist(r , bins=12, range=(-2,12), color='#ff0000', alpha=0.5)
plt.hist(r2, bins=12, range=(-2,12), color='#000000', alpha=0.5)
plt.show()

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/07/19 00:55

    ありがとうございます!解決しました!!

    解決したのは良いんですが、なぜこうした仕様になっているのでしょうか。
    http://pythondatascience.plavox.info/matplotlib/%E3%83%92%E3%82%B9%E3%83%88%E3%82%B0%E3%83%A9%E3%83%A0
    チュートリアルっぽいものを見るとデフォルト値は(x.min(),xmax())になっているようです。

    今回のコードで見てみると
    r.min() # -6.8498020484846514
    r.max() # 18.210002187628636
    r2.min() # -0.87939299883095501
    r2.max() # 10.87921283850276
    と言った感じなのですが、これを見てもよくわかりません。

    print(len(r2) / len(r) * 100) # 94.979%
    となるようにデータの数や中身に問題はないことはわかります。

    上のページを見るとrangenの説明には「ビンの最大値と最小値を指定」とありますが、これって横軸の話ですよね?

    縦軸は2つのグラフとも共通のものと思うのですが、なぜrangeを揃えなければグラフが小さくなってしまうのでしょうか。

    あ、それとも実は縦軸は共通ではなく、赤のグラフと黒のグラフの全体が表示されるように拡大縮小されるから黒の方が小さくなってしまうのでしょうか。

    恐らくmagichanさんの回答の最初に書かれてあるのですがよくわかりませんでした。
    よろしければ回答お願いします。

    キャンセル

  • 2017/07/19 01:34 編集

    どもです。せっかくですので、cloudspiderさんのデータに基づいて書きます。

    cloudspiderさんが書かれているとおり、rangeの範囲のデフォルトは(x.min(), x.max()) となりますので、
    全体表示の方は -6.8498020484846514~18.210002187628636 の範囲を100段階の階級に分割しており、
    ±1.96SD表示の方は -0.87939299883095501~10.87921283850276 の範囲を100段階の階級に分割していることになります。

    この結果、全体表示の方の各階級の階級幅は0.25程度、対して±1.96SD表示の方の階級幅は0.12くらいです。
    (階級幅が2倍以上違います)

    で、この2つのグラフのデータは元々同じもでですので、階級幅を大きいくとっている前者の方が当然各階級の度数が大きくなりますので、質問のグラフのような結果となります。

    > なぜこうした仕様になっているのでしょうか
    詳細なところはわかりかねますが、
    例えば「全体を10階級で表示したい」という場合は、全体の最小値と最大値の間で10段階を分けるは自然な仕様なのではないでしょうか。

    キャンセル

  • 2017/07/19 11:30

    なるほど!!!
    赤と黒とでは[最小値,最大値]が異なるにも関わらず、同じbins(今回では100本)で表そうとしているから、範囲の小さい黒野グラフのほうが細かく表示されてしまうわけですね。
    ということは解決策は2つ合って、簡単に実装できるのがmagichanさんの回答で、わざわざ複雑にして解決するならば「黒のグラフのbinsを赤のグラフに合うように変更していく」というのもあるということですね。
    ありがとうございました。勉強になりました!

    キャンセル

  • 2017/07/19 12:12

    少しだけ補足します。
    binsは階級数(int)を与えるほかに、リストを渡すことも出来ます(各階級幅を自由に設定できる)ので、これを使う方法もありますよ。
    こんな感じ。

    plt.hist(r, bins=[-3,-1,1,3,5,7,9,11,13], color='#ff0000', alpha=0.5)

    階級数が多くなった場合は、numpy.arange()を使えばもう少しスマートに書けます。

    plt.hist(r, bins=np.arange(-3.0,13.5,0.5), color='#ff0000', alpha=0.5)

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.04%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る