分布図の表示について

「Jupiter notebook」にて、分布図の確認を行っていたのですが、見方が分からず質問させてもらいました。
以下はデータの一覧(５つのレコードまで)です。

そして、分布図が以下となります。

こちらですが、「x5」の一つ目のデータには、0.538の値が入っていますが、メモリ的に、縦と横が逆なのではないかと思ってしまいます...
一件目のデータが「0.538」なので、横軸の一番左は「１」であり、他横軸の値も整数が入る必要があるのではないでしょうか...?
少々、データ分析について学習していた際につまづいてしまった為、アドバイス頂けますと幸いです。
追記です
以下は、sns.distplot(df['x5'], kde=False, bins=50)とした時のヒストグラムになります。

行動規範の内容に同意します

回答1件

ベストアンサー

まず、sns.distplot(df['x5'], kde=False, bins=50) で普通のヒストグラムを表示してみましょう。
ヒストグラムというのは、x5の値の範囲が例えば0.38〜0.88として、これをbins=50等分 (0.38〜0.39, 0.39〜0.40, ..., 0.87〜0.88) して、それぞれの範囲のデータの個数を棒グラフにしたものです。したがって、横軸がx5の値、縦軸がデータの個数になります。(binsは省略可能ですが、5とか10とか20とかいろいろ変えて試すといいかも。)

次に、sns.distplot(df['x5'], bins=50) ですが、これは kde=True を指定したのと同じことになります。この場合、
・縦軸の値が個数ではなく、確率密度（たぶん）になり、
・密度近似関数（確率密度を連続的な値にしたもの）が表示されます。

投稿2020/02/08 07:09

hoshi-takanori

総合スコア7901

aae_11

2020/02/08 07:24 編集

ご回答ありがとうございます。「sns.distplot(df['x5'], kde=False, bins=50)」こちらのようにして、結果を表示させた画面を質問本文に追記致しました。実の所こちらの表示もよく分からないといった状況でして... 仮に縦のグラフが「５」の時には、横グラフは「0.4」辺りを指していますが、これは過去５件のデータの範囲が「０〜０.４」までであるということを表しているのでしょうか？

hoshi-takanori

2020/02/08 08:06 編集

len(df) の結果が 506 なので、データは全部で 506 件あるということになります。で、ヒストグラムの左側を見ると、たぶん 0.38〜0.39 あたりに 5 件、0.39〜0.40 あたりに 15 件、0.40〜0.41 あたりに 21 件、... あります。また、右端に孤立したやつが、0.86〜0.87 あたりに 16 件あります。また、データの並び順は無関係です。

aae_11

2020/02/08 08:13

ご返信ありがとうございます。分かってきました。データの並び順は関係なく、データの値の範囲に対して、同じくらいのデータがどれくらい存在するかといった訳だったのですね... どうも勘違いしてしまっていまして、混乱してしまっていました...

aae_11

2020/02/08 08:18

これしかし、便利ですね。データが何件あっても、どれくらいの値ががどのくらい存在するかといったことが分かりますし、結構使う頻度高い気がいたします。

行動規範の内容に同意します