質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

0回答

1531閲覧

Seriesの平均値がうまく算出されない?

MagMag

総合スコア80

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

1クリップ

投稿2019/02/04 09:59

編集2019/02/05 01:57

あるデータ(データ数約6000万)を読み込んで平均値を求めようとしているのですが、平均値の計算結果がヒストグラムと合わず、困っております。

こうなる理由がわかる方、もしくは、問題の切り分け方がわかる方がおられましたら、対応を教えていただけないでしょうか?
なお、小さい値に平均値が引っ張られるていることも考えたのですが、最小値>平均値となっていました。

Python

1import... 2 3df = pd.read_pickle("df.bin") 4ser = df.iloc[:,-1] 5 6type(ser) # pandas.core.series.Series 7len(ser) # 60466176 8ser.shape # (60466176,) 9ser.isnull().sum() # 0 10 11ser.mean() # 35.5 12np.mean(ser) # 35.5 13ser.min() # 56.8。なぜか平均値より大きい。 14ser.sample(1000).mean() # 94.4 15ser.describe() # 結果は以下 16ser.hist() # 結果は以下 17ser.sort_values().head() # 776141 56.8...

#######ser.describe()の結果
count 60466176.0
mean 35.5
std 47.7
min 56.8
25% 88.2
50% 94.9
75% 100.7
max 124.8
Name: 変数y, dtype: float64

#######ser.hist()の結果
ser.hist()の実行結果

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tiitoi

2019/02/04 10:25 編集

ser = df.iloc[:10000,-1] など一部の行のみをを使って試すことでデータ数が大きいことでおかしくなっていないかを切り分けてみてはどうでしょうか?(メモリが足りているかなど)
MagMag

2019/02/05 01:56 編集

ありがとうございました。dfを小さく分けた場合、1000万毎に分けたデータでは正しく算出されているようなのですが、取りうる範囲を広くするとおかしい状態が再現されます。MemoryErrorが出るのならわかるのですが、値が返ってくるのにその値がおかしいなんてこと、あるのでしょうか、、、? ただ、対処療法としては、値を分けて平均を出す対応にしようと思います(もしくは中央値を採用)。 df.iloc[:10000000,-1].mean() #約97 df.iloc[10000000:20000000,-1].mean() #約97 df.iloc[20000000:30000000,-1].mean() #約97 df.iloc[40000000:50000000,-1].mean() #約97 df.iloc[50000000:60000000,-1].mean() #約97 df.iloc[:60000000,-1].mean() #35.8 df.iloc[10000000:60000000,-1].mean() #42.9
tiitoi

2019/02/05 02:20 編集

> dfを小さく分けた場合、1000万毎に分けたデータでは正しく算出されている となると、やはり大規模なデータを扱うことにより予期せぬ不具合が起きている可能性があります。 > MemoryErrorが出るのならわかるのですが、値が返ってくるのにその値がおかしいなんてこと、あるのでしょうか、、、? Pandas や numpy は高速化のために内部では C で実装したコードを実行しているので、そこでメモリ不足の場合のエラーハンドリング等がされているかどうかはわかりません。 そもそもメモリ不足が原因かもわからないので、CSV を読み込んだ際にメモリの使用量がどうなっているかタスクマネージャー等で見てみてはどうでしょうか?
MagMag

2019/02/05 23:49

ありがとうございました。読み込むとメモリは11GB→16G(搭載量)になります。 ただ、数秒でメモリ使用量は落ち着きます。
tiitoi

2019/02/06 10:06

> 11GB→16G(搭載量) これはどういう意味でしょうか?読み込む際に一時的にメモリ搭載量16Gまで行った後にまた使用量が減るということですか?
MagMag

2019/02/07 05:39

おっしゃるとおりです。
tiitoi

2019/02/07 05:45

それはおそらく、メモリ不足で正常に読み込めてないです。 一般的にメモリ不足が発生した際のアプリケーションの挙動というのは動作未定義と考えてよいです。(つまり、質問のようなおかしなことが起こる) 解決策はあと数GBあれば、メモリに載るのであれば増設するか、pandas を使わないで、ファイルから1行単位で読み込んで集計するコードを書くかですかね。(ヒストグラム作成に必要なのは各ビンの個数なので、1行読んで該当するビンをカウントアップするようなコードであれば、1行分しかメモリは使わなくてすむ)
MagMag

2019/02/07 07:19

ありがとうございました。そもそもこのPCに対して6000万ものデータを一括で読み込もうとすること自体、無理がありそう、ということですね。今後大規模データを読み込もうとするときは気をつけようと思います。 エラーなり警告が出てくれると助かるのですが、、、。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問