質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

1112閲覧

variation値とnp.std/np.mean値が異なる

8960

総合スコア108

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2021/11/15 05:19

編集2021/11/15 08:13

前提・実現したいこと

np.variationで出力した変動係数とnp.std/np.meanで出力した変動係数の値が異なります。
なぜでしょうか?

コードの後半、.agg()にて変動係数を出力したく、一部variationをいれてあります。
出力すると、一見それっぽい値が出てくるのですが、.agg()の中に含めてあるnp.stdとnp.meanで出力した値から手計算で(csv上で)、np.std/np.meanを計算すると、variation値と若干異なる値が出力されます。

確認程度に計算させてみた時に気づきました。

この原因は何でしょうか?

【追記】
原因が一部判明しました。
np.stdで出力される値はデフォルトでは標準偏差ですが、
なぜか.agg()に組み込んだ最初のnp.stdでは「不偏標準偏差」が出力されて表示されているようです。
この違いが、若干の数字の違いを生み出しているようです。
本来ならば例)np.std(x,ddof=1)と指定しないと不偏標準偏差にはならないようですが、なぜか
"Speed":[np.mean,percentile(90),np.max,np.std,np.min,variation],
の部分で不偏標準偏差が出力されているようです。

この原因は何なのか、また例でいうとG列に本来の標準偏差を出力させるための方法をご教授いただけると幸いです。

発生している問題・エラーメッセージ

該当のソースコード

python

1import pandas as pd 2import numpy as np 3from scipy.stats import variation 4pd.options.display.float_format="{:.1f}".format 5start,end = "2021/4/1","2021/4/30" 6dates = pd.date_range(start=start,end=end,freq="D") 7players = [f"Player{i}"for i in range(1,6)] 8 9N = 200 10dates = np.random.choice(dates,size=N) 11dates.sort() 12players=np.random.choice(players,size=N) 13 14df = pd.DataFrame({ 15 "Date": dates, 16 "Player": players, 17 "Speed": np.random.sample(N) * 100.0, 18 "Angle": np.random.sample(N) * 40.0 - 20.0, 19 "Efficiency": np.random.sample(N) * 100.0, 20}) 21 22def percentile(n): 23 def percentile_(x): 24 return np.percentile(x, n) 25 percentile_.__name__ = '%sth' % n 26 return percentile_ 27 28dfx = df.groupby(["Date","Player"]).agg({ 29 "Player":"count", 30 "Speed":[np.mean,percentile(90),np.max,np.std,np.min,variation], 31 "Angle":[np.mean,np.std], 32 "Efficiency":[np.mean], 33 })

試したこと

イメージ説明
上記のように、variation値(I4)とnp.std/np.mean値(I3)が異なります…何でしょうか?

補足情報(FW/ツールのバージョンなど)

python,vscode

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

melian

2021/11/15 05:44

"Speed":[..., variation, lambda x: np.std(x)/np.mean(x)] に変更して、float_format="{:.10f}" で表示してみたのですが、、、同じ様に見えますね。。
jbpb0

2021/11/15 05:59 編集

> np.variationで出力した変動係数 が「scipy.stats.variation」のことならば、 > np.std/np.meanを計算すると、variation値と若干異なる値が出力 ソース見ても「np.std / np.mean」です https://github.com/scipy/scipy/blob/v1.7.1/scipy/stats/stats.py#L965-L1021 > np.stdとnp.meanで出力した値から手計算で(csv上で) csvに出力してる有効桁が少なすぎる、とか無いですか? 【追記】 下記を何回実行しても、差は常に「0.0」です import numpy as np from scipy.stats import variation x = np.random.rand(10000) print(variation(x)) print(np.std(x)/np.mean(x)) print(np.std(x)/np.mean(x)-variation(x))
8960

2021/11/15 05:59

追記(画像)致しました。 原因がわかりません…。
8960

2021/11/15 06:00

lambda x: np.std(x)/np.mean(x) ↑ですと確かに等しくなりますね…。
8960

2021/11/15 08:14

原因が一部判明しました。 np.stdで出力される値はデフォルトでは標準偏差ですが、 なぜか.agg()に組み込んだ最初のnp.stdでは「不偏標準偏差」が出力されて表示されているようです。 この違いが、若干の数字の違いを生み出しているようです。 本来ならば例)np.std(x,ddof=1)と指定しないと不偏標準偏差にはならないようですが、なぜか "Speed":[np.mean,percentile(90),np.max,np.std,np.min,variation], の部分で不偏標準偏差が出力されているようです。 この原因は何なのか、また例でいうとG列に本来の標準偏差を出力させるための方法をご教授いただけると幸いです。
8960

2021/11/15 08:40

ありがとうございます! 解決致しました。大変助かりました。
guest

回答1

0

ベストアンサー

この原因は何なのか、また例でいうとG列に本来の標準偏差を出力させるための方法

これ見てください
groupby.agg changes the default parameter of np.std #13344

投稿2021/11/16 09:19

jbpb0

総合スコア7653

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問