質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
86.02%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

Q&A

解決済

Excelの回帰分析における「標準誤差」と同じものをPythonで求めたい

H.K2
H.K2

総合スコア87

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

1回答

0グッド

0クリップ

999閲覧

投稿2021/11/03 06:06

前提・実現したいこと

Excelの回帰分析における、「標準誤差」と同じものをpythonで求めて、可視化のパラメータとしたいです。
ネットで調べたところ、ExcelのSTEYXに相当する(?とおもう)という情報を見つけたので、
さしあたって、下記の図のように簡単なデータセットに対し、
pythonで上記に相当するstackoverflowのコードをみつつ書いてみたのですが、
後述する、TypeErrorが出力されてしまいます。(Errorの内容から推測するに、
行列の形があってなさそうな感じなのですが…)

イメージ説明

お聞きしたいことは下記2点です。
①Excelの「標準誤差」(回帰統計の箇所の4番目、1.243114の箇所)は、STEYXと一致しているという理解で正しいでしょうか。
②pythonで上記と同等の処理を実現する場合、下記のコードで問題ないでしょうか。その場合はどのように修正すれば
問題なく動作するでしょうか。(もしくは、他によい実装方法などがあればご教示いただければ幸甚です)

発生している問題・エラーメッセージ

エラーメッセージ can't multiply sequence by non-int of type 'numpy.float64'

該当のソースコード

Python3

1import numpy as np 2 3x = [1.0,2.0,3.0,4.0,5.0] 4# x1 = [3.3,6.5,8.9, 11.7, 15.1] 5y = [2.1, 4.5, 3.6, 7.9, 9.2] 6 7import statsmodels.api as sm 8X = sm.add_constant(x) # intercept 9model = sm.OLS(y, X) 10fit = model.fit() 11 12fit = np.polyfit(x,y,deg=1) 13n = len(x) 14m = fit[0] 15c = fit[1] 16y_pred = m*x+c 17STEYX = (((y-y_pred)**2).sum()/(n-2))**0.5 18print(STEYX) 19

試したこと

Excelの回帰分析に関する処理の動きを調べた
簡単なコードをjupyterで作成して、動作させた。

補足情報(FW/ツールのバージョンなど)

python 8.7.6
statsmodels 0.13.0

以下のような質問にはグッドを送りましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

グッドが多くついた質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 間違っている
  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

melian

2021/11/03 06:24

修正方法だけなのでコメントで。 > can't multiply sequence by non-int of type 'numpy.float64' x がリストであるために発生しています。なので、 x を numpy.ndarray 型のインスタンスにします。 x = np.array([1.0,2.0,3.0,4.0,5.0]) 実行すると、1.2431143685652313 と表示されます。
jbpb0

2021/11/03 08:16

> ①Excelの「標準誤差」(回帰統計の箇所の4番目、1.243114の箇所)は、STEYXと一致しているという理解で正しいでしょうか。 の「STEYX」とは、エクセルの関数の「STEYX」 https://support.microsoft.com/ja-jp/office/steyx-%E9%96%A2%E6%95%B0-6ce74b2c-449d-4a6e-b9ac-f9cef5ba48ab のことでしょうか? それとも、質問に掲載されてるコード中の「STEYX」の計算式 STEYX = (((y-y_pred)**2).sum()/(n-2))**0.5 のことでしょうか?
H.K2

2021/11/03 15:21

melianさん ありがとうございます。numpy.ndarray型にしないとダメなんですね。勉強になりました。 jbpb0さん 前者のExcelの事となります。ただ、どうも簡単な例でいくつか試したところ、前者と後者は数値上一致するようです。(もしかしたら誤差などもあって一致しない例もあるのかもしれないですが…)

回答1

1

ベストアンサー

修正版は以下です。

python

1import numpy as np 2 3x = np.array([1.0,2.0,3.0,4.0,5.0]) 4# x1 = [3.3,6.5,8.9, 11.7, 15.1] 5y = np.array([2.1, 4.5, 3.6, 7.9, 9.2]) 6 7import statsmodels.api as sm 8X = sm.add_constant(x) # intercept 9model = sm.OLS(y, X) 10fit = model.fit() 11 12fit = np.polyfit(x,y,deg=1) 13n = len(x) 14m = fit[0] 15c = fit[1] 16y_pred = m*x+c 17STEYX = (((y-y_pred)**2).sum()/(n-2))**0.5 18print(STEYX)
  • ①Excelの「標準誤差」(回帰統計の箇所の4番目、1.243114の箇所)は、STEYXと一致しているという理解で正しいでしょうか。

原理は同じだと思います。
誤差の出る可能性のある計算ですので、多少違うかもしれません。
修正コードで計算して、比較してみてください。

投稿2021/11/03 06:35

ppaul

総合スコア24620

H.K2👍を押しています

良いと思った回答にはグッドを送りましょう。
グッドが多くついた回答ほどページの上位に表示されるので、他の人が素晴らしい回答を見つけやすくなります。

下記のような回答は推奨されていません。

  • 間違っている回答
  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

回答へのコメント

H.K2

2021/11/03 15:22

ご回答ありがとうございます。確かに一致しそうな感じですね。いくつか試してみた感じだと今のところ問題はなさそうに思います。ありがとうございます!

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
86.02%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。