あるデータ(データ数約6000万)を読み込んで平均値を求めようとしているのですが、平均値の計算結果がヒストグラムと合わず、困っております。
こうなる理由がわかる方、もしくは、問題の切り分け方がわかる方がおられましたら、対応を教えていただけないでしょうか?
なお、小さい値に平均値が引っ張られるていることも考えたのですが、最小値>平均値となっていました。
Python
1import... 2 3df = pd.read_pickle("df.bin") 4ser = df.iloc[:,-1] 5 6type(ser) # pandas.core.series.Series 7len(ser) # 60466176 8ser.shape # (60466176,) 9ser.isnull().sum() # 0 10 11ser.mean() # 35.5 12np.mean(ser) # 35.5 13ser.min() # 56.8。なぜか平均値より大きい。 14ser.sample(1000).mean() # 94.4 15ser.describe() # 結果は以下 16ser.hist() # 結果は以下 17ser.sort_values().head() # 776141 56.8...
#######ser.describe()の結果
count 60466176.0
mean 35.5
std 47.7
min 56.8
25% 88.2
50% 94.9
75% 100.7
max 124.8
Name: 変数y, dtype: float64
あなたの回答
tips
プレビュー