前提・実現したいこと
np.variationで出力した変動係数とnp.std/np.meanで出力した変動係数の値が異なります。
なぜでしょうか?
コードの後半、.agg()にて変動係数を出力したく、一部variationをいれてあります。
出力すると、一見それっぽい値が出てくるのですが、.agg()の中に含めてあるnp.stdとnp.meanで出力した値から手計算で(csv上で)、np.std/np.meanを計算すると、variation値と若干異なる値が出力されます。
確認程度に計算させてみた時に気づきました。
この原因は何でしょうか?
【追記】
原因が一部判明しました。
np.stdで出力される値はデフォルトでは標準偏差ですが、
なぜか.agg()に組み込んだ最初のnp.stdでは「不偏標準偏差」が出力されて表示されているようです。
この違いが、若干の数字の違いを生み出しているようです。
本来ならば例)np.std(x,ddof=1)と指定しないと不偏標準偏差にはならないようですが、なぜか
"Speed":[np.mean,percentile(90),np.max,np.std,np.min,variation],
の部分で不偏標準偏差が出力されているようです。
この原因は何なのか、また例でいうとG列に本来の標準偏差を出力させるための方法をご教授いただけると幸いです。
発生している問題・エラーメッセージ
該当のソースコード
python
1import pandas as pd 2import numpy as np 3from scipy.stats import variation 4pd.options.display.float_format="{:.1f}".format 5start,end = "2021/4/1","2021/4/30" 6dates = pd.date_range(start=start,end=end,freq="D") 7players = [f"Player{i}"for i in range(1,6)] 8 9N = 200 10dates = np.random.choice(dates,size=N) 11dates.sort() 12players=np.random.choice(players,size=N) 13 14df = pd.DataFrame({ 15 "Date": dates, 16 "Player": players, 17 "Speed": np.random.sample(N) * 100.0, 18 "Angle": np.random.sample(N) * 40.0 - 20.0, 19 "Efficiency": np.random.sample(N) * 100.0, 20}) 21 22def percentile(n): 23 def percentile_(x): 24 return np.percentile(x, n) 25 percentile_.__name__ = '%sth' % n 26 return percentile_ 27 28dfx = df.groupby(["Date","Player"]).agg({ 29 "Player":"count", 30 "Speed":[np.mean,percentile(90),np.max,np.std,np.min,variation], 31 "Angle":[np.mean,np.std], 32 "Efficiency":[np.mean], 33 })
試したこと
上記のように、variation値(I4)とnp.std/np.mean値(I3)が異なります…何でしょうか?
補足情報(FW/ツールのバージョンなど)
python,vscode
回答1件
あなたの回答
tips
プレビュー