###データセット
x.shape
出力:(53, 17)
y.shape
出力:(53,)
###skleanによるlinerregression
autoscaled_y = (y - y.mean()) / y.std()
autoscaled_x = (x - x.mean()) / x.std()
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(autoscaled_x, autoscaled_y)
出力:LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)
standard_regression_coefficients = pd.DataFrame(model.coef_)
standard_regression_coefficients.index = x.columns
standard_regression_coefficients.columns = ['standard_regression_coefficients']
standard_regression_coefficients
出力:
standard_regression_coefficients
1 2.526109e+06
2 2.576842e+06
3 5.998161e+05
//
53
以上のように試したところ、標準回帰係数がe+06などとても高く出ます。一般的な例だと±1程度をよく見る気がするのですが、説明変数(17)に対してサンプル数(53)が少なすぎるなど関係があるのでしょうか。この係数が異常に高くなる要因についてご存じの方いらっしゃいましたら教えていただきたく思います。よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。