質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
86.02%
Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

Q&A

解決済

PythonにおけるPearsonの積率相関係数を計算したい

black05ants11
black05ants11

総合スコア1

Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

1回答

0グッド

0クリップ

1503閲覧

投稿2021/06/20 16:33

前提・実現したいこと

最近Python等で統計の勉強を始めた大学院生です。
大学の講義で「相関係数が0の母集団から得られた標本(n=30)の相関係数から計算されたt統計量が自由度n-2のt分布に従うか確認する」という課題があり、
母集団から標本を10000回抽出し、各標本から相関係数を求めてヒストグラムを描画する。次に自由度n-2のt分布も描画しておよそヒストグラムと一致するか確認するという流れのプログラムをpython.3.0のjupyter notebookにて書いておりますが、Pearsonの積率相関係数を計算する際にエラーが出てしまい、解決法を教えていただきたく思います。「r」が赤文字になっているので原因だと思うのですが、なぜ赤文字になるのかわからないという状況です。よろしくお願いいたします。

発生している問題・エラーメッセージ

File "<ipython-input-114-137ff88773f7>", line 9 r,p = stats.pearsonr(df.x, df.y) #sampledのx列とy列のPearsonの積率相関係数を計算 ^ SyntaxError: invalid character in identifier

該当のソースコード

python3

1df = pd.read_csv("https://bit.ly/2TVx6nq") #インターネット経由で相関係数がほぼ0な母集団を読み込み 2import scipy.stats as stats #scipyパッケージのstatsモジュールをstatsで読み込み 3from scipy.stats import pearsonr #相関係数の計算 4import numpy as np #numpyパッケージをnpで読み込み 5SAMPLE_NUM = 100000 6n = 30 7t_value = [] #t統計量を保存しておくための配列 8for i in range(SAMPLE_NUM): #以下をSAMPLE_NUM回繰り返すfor文 9 sampled = df.sample(n = 30) #DataFrameからランダムに30個の行を取り出す 10  r,p = stats.pearsonr(df.x, df.y) #sampledのx列とy列のPearsonの積率相関係数を計算 11 #r:相関係数 p:p値 12 t_value.append(r) #配列に追加 13 14plt.hist(t_values, density=True) # 得られたSAMPLE_NUM 個のt統計量のヒストグラムを描画する. 15# t分布の描画 16xs = np.arange(-10, 10, 0.001) 17ys = stats.t.pdf(xs, df=n-2) 18plt.plot(xs, ys)

試したこと

rを別の変数に置き換える。そもそもstats.pearsonrを使うことが正しいかほかの構文も確認。

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

以下のような質問にはグッドを送りましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

グッドが多くついた質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 間違っている
  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

回答1

0

ベストアンサー

一見すると分かりづらいのですが、質問文のコードブロックだと見えるようにr,pの箇所だけインデントに半角スペースではなく全角スペースが使われています。

python

1 sampled = df.sample(n = 30) #DataFrameからランダムに30個の行を取り出す 2  r,p = stats.pearsonr(df.x, df.y) #sampledのx列とy列のPearsonの積率相関係数を計算 3 #r:相関係数 p:p値

※わかりやすくするために抜粋。実際にマウスカーソルなどで数えると、真ん中だけ2文字分しかありません

一度インデントの箇所を消して半角スペースでのインデントに置き換えてください。

補足として

もし頻繁にやっちゃいそうなら、プログラミング用のフォントの利用などを検討してみてください。
全角スペースなどが視覚化されてミスに気づきやすくなります。

投稿2021/06/20 17:45

attakei

総合スコア2719

良いと思った回答にはグッドを送りましょう。
グッドが多くついた回答ほどページの上位に表示されるので、他の人が素晴らしい回答を見つけやすくなります。

下記のような回答は推奨されていません。

  • 間違っている回答
  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

回答へのコメント

black05ants11

2021/06/21 11:08

早速ご回答ありがとうございました。当該エラーは消えました。今後は提案していただいたプログラミング用フォントも活用していきたいと思います。

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
86.02%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。