Pythonのpd.corrwithの使い方について（Series型とDataFrame型の違い）

いつもお世話になっております。
標記について教えていただきたいことがあります。

下記のようなDataFrameがあるとします。

	col1	col2	col3
idx0	0.470484	0.529014	0.200872
idx1	0.036357	0.999937	0.949096
idx2	0.097277	0.152169	0.568015

これを、

df2

	col1
idx0	0.470484
idx1	0.036357
idx2	0.097277

を抽出します。
このとき、df2はSeries型の場合と、DataFrame型の場合があるとします。
型を変えてpd.corrwithを行うと、結果が変わってきます。

＜dfとdf2（DataFrame）の場合＞
col1:XX（何かしらの値）
col2:NaN
col3:NaN

という結果になります。
同じカラム同士の相関しか計算していないのだと思います。

＜dfとdf2（Series）の場合＞
col1:XX（何かしらの値）
col2:XX（何かしらの値）
col3:XX（何かしらの値）

となります。
これは、型によって計算結果が変わるのでしょうか？

ご存じの方がいましたら、教えていただければと思います。
どうぞよろしくお願い致します。

行動規範の内容に同意します

回答2件

Documentに記述が見つかりませんでしたが、
動作をみるかぎり、引数が DataFrame の場合は対応する列（Column名が同じ列）同士で比較が行われ、引数が Seriesの場合は、Series名に関わらず全ての列との間で比較が行われているようです。

Python
1import pandas as pd
2df = pd.DataFrame({'col1':[0.470484, 0.036357, 0.097277],
3                   'col2':[0.529014, 0.999937, 0.152169],
4                   'col3':[0.200872, 0.949096, 0.568015]},
5                  index=['idx1','idx2','idx3'])
6
7df2 = pd.DataFrame({'col1':[0.470484, 0.036357, 0.097277]},
8                  index=['idx1','idx2','idx3'])
9
10# 引数が'col1'列のみのDataFrameの場合
11print(df.corrwith(df2, drop=True))
12#col1    1.0
13#dtype: float64
14
15# 引数が'col2'列のみのDataFrameの場合（列名を'col2'に変更）
16print(df.corrwith(df2.rename(columns={'col1':'col2'}), drop=True))
17#col2   -0.192729
18#dtype: float64
19
20# 引数が'col3'列のみのDataFrameの場合（列名を'col3'に変更）
21print(df.corrwith(df2.rename(columns={'col1':'col3'}), drop=True))
22#col3   -0.919342
23#dtype: float64
24
25# 引数がSeriesの場合
26print(df.corrwith(df2['col1'], drop=True))
27#col1    1.000000
28#col2   -0.192729
29#col3   -0.919342
30#dtype: float64
31
32# 引数がSeriesの場合は名前(列名?）は関係ないらしい
33print(df.corrwith(df2['col1'].rename('DUMMY'), drop=True))
34#col1    1.000000
35#col2   -0.192729
36#col3   -0.919342
37#dtype: float64

投稿2019/09/11 00:15

編集2019/09/11 00:16

magichan

総合スコア15898

essa

2019/09/11 15:42

毎回ご回答いただき、ありがとうございます。やはりそうなのですね。確認していただき、ありがとうございました。

行動規範の内容に同意します

ベストアンサー

https://github.com/pandas-dev/pandas/blob/v0.25.1/pandas/core/frame.py#L7646-L7731

ソースをご覧になればわかりやすいかと。

python
1        if isinstance(other, Series):
2            return this.apply(lambda x: other.corr(x, method=method), axis=axis)
3

投稿2019/09/11 00:44

t_obara

総合スコア5488

essa

2019/09/11 15:42

t_obara様回答ありがとうございました。ソースを確認するのは考えたことがありませんでした。ありがとうございました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Pythonのpd.corrwithの使い方について（Series型とDataFrame型の違い）

関連した質問