質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

2270閲覧

Pythonのpd.corrwithの使い方について(Series型とDataFrame型の違い)

essa

総合スコア81

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2019/09/10 15:55

いつもお世話になっております。
標記について教えていただきたいことがあります。

下記のようなDataFrameがあるとします。

df

col1col2col3
idx00.4704840.5290140.200872
idx10.0363570.9999370.949096
idx20.0972770.1521690.568015

これを、

df2

col1
idx00.470484
idx10.036357
idx20.097277

を抽出します。
このとき、df2はSeries型の場合と、DataFrame型の場合があるとします。
型を変えてpd.corrwithを行うと、結果が変わってきます。

<dfとdf2(DataFrame)の場合>
col1:XX(何かしらの値)
col2:NaN
col3:NaN

という結果になります。
同じカラム同士の相関しか計算していないのだと思います。

<dfとdf2(Series)の場合>
col1:XX(何かしらの値)
col2:XX(何かしらの値)
col3:XX(何かしらの値)

となります。
これは、型によって計算結果が変わるのでしょうか?

ご存じの方がいましたら、教えていただければと思います。
どうぞよろしくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

Documentに記述が見つかりませんでしたが、
動作をみるかぎり、引数が DataFrame の場合は対応する列(Column名が同じ列)同士で比較が行われ、引数が Seriesの場合は、Series名に関わらず全ての列との間で比較が行われているようです。

Python

1import pandas as pd 2df = pd.DataFrame({'col1':[0.470484, 0.036357, 0.097277], 3 'col2':[0.529014, 0.999937, 0.152169], 4 'col3':[0.200872, 0.949096, 0.568015]}, 5 index=['idx1','idx2','idx3']) 6 7df2 = pd.DataFrame({'col1':[0.470484, 0.036357, 0.097277]}, 8 index=['idx1','idx2','idx3']) 9 10# 引数が'col1'列のみのDataFrameの場合 11print(df.corrwith(df2, drop=True)) 12#col1 1.0 13#dtype: float64 14 15# 引数が'col2'列のみのDataFrameの場合(列名を'col2'に変更) 16print(df.corrwith(df2.rename(columns={'col1':'col2'}), drop=True)) 17#col2 -0.192729 18#dtype: float64 19 20# 引数が'col3'列のみのDataFrameの場合(列名を'col3'に変更) 21print(df.corrwith(df2.rename(columns={'col1':'col3'}), drop=True)) 22#col3 -0.919342 23#dtype: float64 24 25# 引数がSeriesの場合 26print(df.corrwith(df2['col1'], drop=True)) 27#col1 1.000000 28#col2 -0.192729 29#col3 -0.919342 30#dtype: float64 31 32# 引数がSeriesの場合は名前(列名?)は関係ないらしい 33print(df.corrwith(df2['col1'].rename('DUMMY'), drop=True)) 34#col1 1.000000 35#col2 -0.192729 36#col3 -0.919342 37#dtype: float64

投稿2019/09/11 00:15

編集2019/09/11 00:16
magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

essa

2019/09/11 15:42

毎回ご回答いただき、ありがとうございます。 やはりそうなのですね。確認していただき、ありがとうございました。
guest

0

ベストアンサー

https://github.com/pandas-dev/pandas/blob/v0.25.1/pandas/core/frame.py#L7646-L7731

ソースをご覧になればわかりやすいかと。

python

1 if isinstance(other, Series): 2 return this.apply(lambda x: other.corr(x, method=method), axis=axis) 3

投稿2019/09/11 00:44

t_obara

総合スコア5488

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

essa

2019/09/11 15:42

t_obara様 回答ありがとうございました。 ソースを確認するのは考えたことがありませんでした。 ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問