前提・実現したいこと
データが正規分布していない場合のcorr()の扱いを知りたいです。
発生している問題・エラーメッセージ
Pythonのpandasでcorr()を使うと、相関係数が出ますが、これがピアソンの相関係数を元に作られていることがわかりました。
---追記---
<参考記事>
pandas.pydata.org
DataFrame.corr(method='pearson', min_periods=1)
pearson : standard correlation coefficient
pandas.pydata.orgより引用
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html
---追記終了---
ピアソンの相関係数を調べると、条件としてデータが正規分布であることを前提としているとありました。
---追記---
<参考記事>
Pearsonの相関係数はデータが正規分布であることが前提となり、KendallやSpearmanの相関係数はその前提がございません。
IBMサポートよおり引用
---追記終了---
しかし、kaggle等を見ると、元データが正規分布ではないのに、corr()を使用しているような例があります。(特徴データが正規分布かどうか調べる前に、corrで相関を調べてしまうなど)
これはどう言うメリットがあるのでしょうか?
後、恥ずかしながら自分は何も考えずにずっとcorrを使用していました。
ただ、頭のいい方達はしっかりわかった上で使っていると思うので、そのメリットが知れたらいいなと思っています。
それとも、正規分布かどうかって実際そこまで重要視しなくてよかったりしますかね?
数弱な身で申し訳ありませんが、教えていただけますと幸いです。
回答1件
あなたの回答
tips
プレビュー