Excelの回帰分析における「標準誤差」と同じものをPythonで求めたい

前提・実現したいこと

Excelの回帰分析における、「標準誤差」と同じものをpythonで求めて、可視化のパラメータとしたいです。
ネットで調べたところ、ExcelのSTEYXに相当する（？とおもう）という情報を見つけたので、
さしあたって、下記の図のように簡単なデータセットに対し、
pythonで上記に相当するstackoverflowのコードをみつつ書いてみたのですが、
後述する、TypeErrorが出力されてしまいます。（Errorの内容から推測するに、
行列の形があってなさそうな感じなのですが…）

お聞きしたいことは下記２点です。
①Excelの「標準誤差」（回帰統計の箇所の４番目、1.243114の箇所）は、STEYXと一致しているという理解で正しいでしょうか。
②pythonで上記と同等の処理を実現する場合、下記のコードで問題ないでしょうか。その場合はどのように修正すれば
問題なく動作するでしょうか。（もしくは、他によい実装方法などがあればご教示いただければ幸甚です）

発生している問題・エラーメッセージ

エラーメッセージ
can't multiply sequence by non-int of type 'numpy.float64'

該当のソースコード

Python3
1import numpy as np
2
3x = [1.0,2.0,3.0,4.0,5.0]
4# x1 = [3.3,6.5,8.9, 11.7, 15.1]
5y = [2.1, 4.5, 3.6, 7.9, 9.2]
6
7import statsmodels.api as sm
8X = sm.add_constant(x) # intercept
9model = sm.OLS(y, X)
10fit = model.fit()
11
12fit = np.polyfit(x,y,deg=1)
13n = len(x)
14m = fit[0]
15c = fit[1]
16y_pred = m*x+c
17STEYX = (((y-y_pred)**2).sum()/(n-2))**0.5
18print(STEYX)
19

試したこと

Excelの回帰分析に関する処理の動きを調べた
簡単なコードをjupyterで作成して、動作させた。

補足情報（FW/ツールのバージョンなど）

python 8.7.6
statsmodels 0.13.0

melian

2021/11/03 06:24

修正方法だけなのでコメントで。 > can't multiply sequence by non-int of type 'numpy.float64' x がリストであるために発生しています。なので、 x を numpy.ndarray 型のインスタンスにします。 x = np.array([1.0,2.0,3.0,4.0,5.0]) 実行すると、1.2431143685652313 と表示されます。

jbpb0

2021/11/03 08:16

> ①Excelの「標準誤差」（回帰統計の箇所の４番目、1.243114の箇所）は、STEYXと一致しているという理解で正しいでしょうか。の「STEYX」とは、エクセルの関数の「STEYX」 https://support.microsoft.com/ja-jp/office/steyx-%E9%96%A2%E6%95%B0-6ce74b2c-449d-4a6e-b9ac-f9cef5ba48ab のことでしょうか？それとも、質問に掲載されてるコード中の「STEYX」の計算式 STEYX = (((y-y_pred)**2).sum()/(n-2))**0.5 のことでしょうか？

H.K2

2021/11/03 15:21

melianさんありがとうございます。numpy.ndarray型にしないとダメなんですね。勉強になりました。 jbpb0さん前者のExcelの事となります。ただ、どうも簡単な例でいくつか試したところ、前者と後者は数値上一致するようです。（もしかしたら誤差などもあって一致しない例もあるのかもしれないですが…）

行動規範の内容に同意します

回答1件

ベストアンサー

修正版は以下です。

python
1import numpy as np
2
3x = np.array([1.0,2.0,3.0,4.0,5.0])
4# x1 = [3.3,6.5,8.9, 11.7, 15.1]
5y = np.array([2.1, 4.5, 3.6, 7.9, 9.2])
6
7import statsmodels.api as sm
8X = sm.add_constant(x) # intercept
9model = sm.OLS(y, X)
10fit = model.fit()
11
12fit = np.polyfit(x,y,deg=1)
13n = len(x)
14m = fit[0]
15c = fit[1]
16y_pred = m*x+c
17STEYX = (((y-y_pred)**2).sum()/(n-2))**0.5
18print(STEYX)