質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

4867閲覧

質的データの相関について

mimamoru

総合スコア19

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2018/12/26 23:15

scikit-learnでデータ分析をしています。
項目の相関を求めるため、pandasのcorr()関数を使いました。
各項目-1から1までの数値がでてきますがここで質問です。
項目には質的データ(1,0のみに変換したもの)と量的データが混ざっています。
この場合表示された-1から1までの数値は量的データのみの場合の相関係数と同様の評価をして良いのでしょうか。
調べたところファイ係数や相関比といったものが出て来ましたが、これらは相関係数とは別物なのでしょうか。
corr()関数によって出された数値は
質的データ(1,0のみに変換したもの)同士なら ファイ係数
量的データ(1,0のみに変換したもの)同士なら 相関比
質的データ(1,0のみに変換したもの)と量的データなら 相関係数
という解釈でしょうか。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

pandasのcorrメソッドはヘルプによると相関係数を算出するものです。したがって、ご質問のようなデータの相違によって見たい係数を替えたいのであれば、別々に処理する必要があります。

なお、0または1に変換した量的データ同士の相関を見たいのであれば、ファイ係数を用いたほうがいいかと思います。例えば、年齢という量的データを一定の基準によって大人、子どもに変換した場合、その結果である0,1のデータは質的データになります。同様に、本来は量的データだったものを0,1に変換したものと量的データの相関についても、質的データと量的データの相関とみなして相関比を用いたほうがいいかと思います

投稿2018/12/27 03:23

R.Shigemori

総合スコア3376

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mimamoru

2018/12/27 03:35

ありがとうございます。pandasを使って相関比やファイ係数を求める方法はあるのでしょうか。
R.Shigemori

2018/12/27 04:46

当方の勘違いの部分の訂正と合わせて回答します。 pandasのcorrメソッドがピアソン積率相関係数を算出していることは事実で、ファイ係数とは別物と思っていましたが、実際にはこのピアソン積率相関係数を使っていいそうです。つまり、質的データと質的データの相関もcorrメソッドで計算可能です。 相関比ですが、pandasには該当する機能がないようです。パラパラと検索したところ、相関比に該当する関数そのものがないようです。よって自力でコードを書くか代替手段で折り合いをつけるかのどちらかになりそうです。当方はcorrで代替したりカイ二乗検定や分離分析を使って相関の有無を確認しています
mimamoru

2018/12/27 23:33 編集

ご丁寧にありがとうございました。とても助かりました。 すみません。付け加えでお聞きしたいのですが、質的データと量的データの相関を求める際、相関比の代替手段としてcorr関数を使った場合、表示される数値は相関係数と同じように評価しても良いのでしょうか。
R.Shigemori

2018/12/28 00:18

corrの結果という意味では量的データ同士でも質的データと量的データでも同じなので同じ扱いで構いません。ただし、質的データと量的データの場合ははっきりとした相関が出にくいので一般的にいわれる閾値で相関の有無を評価するのは危険かと思います。使い道としては変数aと変数bより変数aと変数cのほうが強いといった相対比較にとどめたほうがいいでしょう。
mimamoru

2018/12/28 00:27

ありがとうございます。なんども申し訳ありません。 質的データと量的データの相関を量的データ同士の相関と同じように評価できる手法はないのでしょうか。 量的データをカテゴリーに分けてcorr関数を用いたほうが良いのでしょうか。
R.Shigemori

2018/12/28 00:47

「同じように」が何を意味しているのかがわからないと回答できないので、具体的にやりたいことを教えてください。当方からすると、同じcorrを用いている時点で「同じように」評価していると思っていました
mimamoru

2018/12/28 01:08

例えば 年齢(量的データ) 性別(質的データ(1,0)) 利き手(質的データ(1,0)) 身長(量的データ) 体重(量的データ) のデータにcorr関数を用いた際 ①身長(量的データ)と体重(量的データ)では相関係数 ②性別(質的データ(1,0))と利き手(質的データ(1,0))ではファイ係数 が算出されるという認識で良いでしょうか。 ③身長(量的データ)と性別(質的データ(1,0)) の場合は何を算出していますか。 ①②③で算出された数値は同じ基準で判断できますか。(①②③の値がそれぞれ0.4,0.35,0.3だった場合単純に①②③の順に相関が強いと判断できますか。) というのが先ほどの質問の意図でして >>質的データと量的データの場合ははっきりとした相関が出にくいので一般的にいわれる閾値で相関の有無を評価するのは危険 と回答をいただきましたが、質的データと量的データの相関を量的データの相関の大きさと比べるにはどうしたら良いでしょうか。
R.Shigemori

2018/12/28 20:56

①はmimamoruさんの記載の通り相関係数(ピアソン積率相関係数)です。②はファイ係数ですが、実際にはピアソン積率相関係数なので相関係数と同意です。③はcorrを使うのであればピアソン積率相関係数なので相関係数となります。以上より、①②③は計算方法が同じなので要望の相対比較は可能と考えます。 先の回答の「危険」とは③のケース(実際には②のケースも該当)において、0.3だからあまりないと単純に判断するべきではなく、他の統計手法を活用した分析結果を踏まえて総合的に判断するべきという意味でした。したがってmimamoruさんのやりたいことからいうと関係なさそうです
mimamoru

2018/12/28 22:06

ありがとうございます。よくわかりました。 なんどもご回答いただきありがとうございました。 今後も勉強を続けたいと思います。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問