質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

Q&A

解決済

1回答

2128閲覧

Excelの回帰分析における「標準誤差」と同じものをPythonで求めたい

H.K2

総合スコア88

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

0グッド

0クリップ

投稿2021/11/03 06:06

前提・実現したいこと

Excelの回帰分析における、「標準誤差」と同じものをpythonで求めて、可視化のパラメータとしたいです。
ネットで調べたところ、ExcelのSTEYXに相当する(?とおもう)という情報を見つけたので、
さしあたって、下記の図のように簡単なデータセットに対し、
pythonで上記に相当するstackoverflowのコードをみつつ書いてみたのですが、
後述する、TypeErrorが出力されてしまいます。(Errorの内容から推測するに、
行列の形があってなさそうな感じなのですが…)

イメージ説明

お聞きしたいことは下記2点です。
①Excelの「標準誤差」(回帰統計の箇所の4番目、1.243114の箇所)は、STEYXと一致しているという理解で正しいでしょうか。
②pythonで上記と同等の処理を実現する場合、下記のコードで問題ないでしょうか。その場合はどのように修正すれば
問題なく動作するでしょうか。(もしくは、他によい実装方法などがあればご教示いただければ幸甚です)

発生している問題・エラーメッセージ

エラーメッセージ can't multiply sequence by non-int of type 'numpy.float64'

該当のソースコード

Python3

1import numpy as np 2 3x = [1.0,2.0,3.0,4.0,5.0] 4# x1 = [3.3,6.5,8.9, 11.7, 15.1] 5y = [2.1, 4.5, 3.6, 7.9, 9.2] 6 7import statsmodels.api as sm 8X = sm.add_constant(x) # intercept 9model = sm.OLS(y, X) 10fit = model.fit() 11 12fit = np.polyfit(x,y,deg=1) 13n = len(x) 14m = fit[0] 15c = fit[1] 16y_pred = m*x+c 17STEYX = (((y-y_pred)**2).sum()/(n-2))**0.5 18print(STEYX) 19

試したこと

Excelの回帰分析に関する処理の動きを調べた
簡単なコードをjupyterで作成して、動作させた。

補足情報(FW/ツールのバージョンなど)

python 8.7.6
statsmodels 0.13.0

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

melian

2021/11/03 06:24

修正方法だけなのでコメントで。 > can't multiply sequence by non-int of type 'numpy.float64' x がリストであるために発生しています。なので、 x を numpy.ndarray 型のインスタンスにします。 x = np.array([1.0,2.0,3.0,4.0,5.0]) 実行すると、1.2431143685652313 と表示されます。
jbpb0

2021/11/03 08:16

> ①Excelの「標準誤差」(回帰統計の箇所の4番目、1.243114の箇所)は、STEYXと一致しているという理解で正しいでしょうか。 の「STEYX」とは、エクセルの関数の「STEYX」 https://support.microsoft.com/ja-jp/office/steyx-%E9%96%A2%E6%95%B0-6ce74b2c-449d-4a6e-b9ac-f9cef5ba48ab のことでしょうか? それとも、質問に掲載されてるコード中の「STEYX」の計算式 STEYX = (((y-y_pred)**2).sum()/(n-2))**0.5 のことでしょうか?
H.K2

2021/11/03 15:21

melianさん ありがとうございます。numpy.ndarray型にしないとダメなんですね。勉強になりました。 jbpb0さん 前者のExcelの事となります。ただ、どうも簡単な例でいくつか試したところ、前者と後者は数値上一致するようです。(もしかしたら誤差などもあって一致しない例もあるのかもしれないですが…)
guest

回答1

0

ベストアンサー

修正版は以下です。

python

1import numpy as np 2 3x = np.array([1.0,2.0,3.0,4.0,5.0]) 4# x1 = [3.3,6.5,8.9, 11.7, 15.1] 5y = np.array([2.1, 4.5, 3.6, 7.9, 9.2]) 6 7import statsmodels.api as sm 8X = sm.add_constant(x) # intercept 9model = sm.OLS(y, X) 10fit = model.fit() 11 12fit = np.polyfit(x,y,deg=1) 13n = len(x) 14m = fit[0] 15c = fit[1] 16y_pred = m*x+c 17STEYX = (((y-y_pred)**2).sum()/(n-2))**0.5 18print(STEYX)
  • ①Excelの「標準誤差」(回帰統計の箇所の4番目、1.243114の箇所)は、STEYXと一致しているという理解で正しいでしょうか。

原理は同じだと思います。
誤差の出る可能性のある計算ですので、多少違うかもしれません。
修正コードで計算して、比較してみてください。

投稿2021/11/03 06:35

ppaul

総合スコア24666

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

H.K2

2021/11/03 15:22

ご回答ありがとうございます。確かに一致しそうな感じですね。いくつか試してみた感じだと今のところ問題はなさそうに思います。ありがとうございます!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問