Seriesの平均値がうまく算出されない？

あるデータ（データ数約6000万）を読み込んで平均値を求めようとしているのですが、平均値の計算結果がヒストグラムと合わず、困っております。

こうなる理由がわかる方、もしくは、問題の切り分け方がわかる方がおられましたら、対応を教えていただけないでしょうか？
なお、小さい値に平均値が引っ張られるていることも考えたのですが、最小値>平均値となっていました。

Python
1import...
2
3df = pd.read_pickle("df.bin") 
4ser = df.iloc[:,-1]
5
6type(ser) # pandas.core.series.Series
7len(ser) # 60466176
8ser.shape #  (60466176,)
9ser.isnull().sum() # 0
10
11ser.mean() # 35.5
12np.mean(ser) # 35.5
13ser.min() # 56.8。なぜか平均値より大きい。
14ser.sample(1000).mean() # 94.4
15ser.describe() #　結果は以下
16ser.hist() # 結果は以下
17ser.sort_values().head() # 776141  56.8...

#######ser.describe()の結果
count 60466176.0
mean 35.5
std 47.7
min 56.8
25% 88.2
50% 94.9
75% 100.7
max 124.8
Name: 変数y, dtype: float64

#######ser.hist()の結果

tiitoi

2019/02/04 10:25 編集

ser = df.iloc[:10000,-1] など一部の行のみをを使って試すことでデータ数が大きいことでおかしくなっていないかを切り分けてみてはどうでしょうか？(メモリが足りているかなど)

MagMag

2019/02/05 01:56 編集

ありがとうございました。dfを小さく分けた場合、1000万毎に分けたデータでは正しく算出されているようなのですが、取りうる範囲を広くするとおかしい状態が再現されます。MemoryErrorが出るのならわかるのですが、値が返ってくるのにその値がおかしいなんてこと、あるのでしょうか、、、？ただ、対処療法としては、値を分けて平均を出す対応にしようと思います（もしくは中央値を採用）。 df.iloc[:10000000,-1].mean() #約97 df.iloc[10000000:20000000,-1].mean() #約97 df.iloc[20000000:30000000,-1].mean() #約97 df.iloc[40000000:50000000,-1].mean() #約97 df.iloc[50000000:60000000,-1].mean() #約97 df.iloc[:60000000,-1].mean() #35.8 df.iloc[10000000:60000000,-1].mean()　＃42.9

tiitoi

2019/02/05 02:20 編集

> dfを小さく分けた場合、1000万毎に分けたデータでは正しく算出されているとなると、やはり大規模なデータを扱うことにより予期せぬ不具合が起きている可能性があります。 > MemoryErrorが出るのならわかるのですが、値が返ってくるのにその値がおかしいなんてこと、あるのでしょうか、、、？ Pandas や numpy は高速化のために内部では C で実装したコードを実行しているので、そこでメモリ不足の場合のエラーハンドリング等がされているかどうかはわかりません。そもそもメモリ不足が原因かもわからないので、CSV を読み込んだ際にメモリの使用量がどうなっているかタスクマネージャー等で見てみてはどうでしょうか？

MagMag

2019/02/05 23:49

ありがとうございました。読み込むとメモリは11GB→16G(搭載量)になります。ただ、数秒でメモリ使用量は落ち着きます。

tiitoi

2019/02/06 10:06

> 11GB→16G(搭載量) これはどういう意味でしょうか？読み込む際に一時的にメモリ搭載量16Gまで行った後にまた使用量が減るということですか？

MagMag

2019/02/07 05:39

おっしゃるとおりです。

tiitoi

2019/02/07 05:45

それはおそらく、メモリ不足で正常に読み込めてないです。一般的にメモリ不足が発生した際のアプリケーションの挙動というのは動作未定義と考えてよいです。(つまり、質問のようなおかしなことが起こる) 解決策はあと数GBあれば、メモリに載るのであれば増設するか、pandas を使わないで、ファイルから1行単位で読み込んで集計するコードを書くかですかね。(ヒストグラム作成に必要なのは各ビンの個数なので、1行読んで該当するビンをカウントアップするようなコードであれば、1行分しかメモリは使わなくてすむ)

MagMag

2019/02/07 07:19

ありがとうございました。そもそもこのPCに対して6000万ものデータを一括で読み込もうとすること自体、無理がありそう、ということですね。今後大規模データを読み込もうとするときは気をつけようと思います。エラーなり警告が出てくれると助かるのですが、、、。