Statsmodelを用いて重回帰分析を行いたいです

前提・実現したいこと

重回帰分析を行いたいです。
ここに質問の内容を詳しく書いてください。

発生している問題・エラーメッセージ

下記のエラーが解消できず、困っています。
AttributeError: module 'statsmodels.formula.api' has no attribute 'OLS'

該当のソースコード

import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf

df = pd.read_csv('912alltimebiased.csv',encoding='cp932',dtype='object')

x = pd.get_dummies(df[['右上腕平均AccX','右上腕平均AccY','右上腕平均AccZ','右上腕平均GyroX','右上腕平均GyroY','右上腕平均GyroZ','右上腕標準偏差AccX','右上腕標準偏差AccY','右上腕標準偏差AccZ','右上腕標準偏差GyroX','右上腕標準偏差GyroY','右上腕標準偏差GyroZ','左上腕平均AccX','左上腕平均AccY','左上腕平均AccZ','左上腕平均GyroX','左上腕平均GyroY','左上腕平均GyroZ','左上腕標準偏差AccX','左上腕標準偏差AccY','左上腕標準偏差AccZ','左上腕標準偏差GyroX','左上腕標準偏差GyroY','左上腕標準偏差GyroZ','右手首平均AccX','右手首平均AccY','右手首平均AccZ','右手首平均GyroX','右手首平均GyroY','右手首平均GyroZ','右手首標準偏差AccX','右手首標準偏差AccY','右手首標準偏差AccZ','右手首標準偏差GyroX','右手首標準偏差GyroY','右手首標準偏差GyroZ','左手首平均AccX','左手首平均AccY','左手首平均AccZ','左手首平均GyroX','左手首平均GyroY','左手首平均GyroZ','左手首標準偏差AccX','左手首標準偏差AccY','左手首標準偏差AccZ','左手首標準偏差GyroX','左手首標準偏差GyroY','左手首標準偏差GyroZ','右脚平均AccX','右脚平均AccY','右脚平均AccZ','右脚平均GyroX','右脚平均GyroY','右脚平均GyroZ','右脚標準偏差AccX','右脚標準偏差AccY','右脚標準偏差AccZ','右脚標準偏差GyroX','右脚標準偏差GyroY','右脚標準偏差GyroZ','左脚平均AccX','左脚平均AccY','左脚平均AccZ','左脚平均GyroX','左脚平均GyroY','左脚平均GyroZ','左脚標準偏差AccX','左脚標準偏差AccY','左脚標準偏差AccZ','左脚標準偏差GyroX','左脚標準偏差GyroY','左脚標準偏差GyroZ','右足首平均AccX','右足首平均AccY','右足首平均AccZ',         
                '右足首平均GyroX','右足首平均GyroY','右足首平均GyroZ','右足首標準偏差AccX','右足首標準偏差AccY','右足首標準偏差AccZ','右足首標準偏差GyroX','右足首標準偏差GyroY','右足首標準偏差GyroZ','左足首平均AccX','左足首平均AccY','左足首平均AccZ','左足首平均GyroX','左足首平均GyroY','左足首平均GyroZ','左足首標準偏差AccX','左足首標準偏差AccY','左足首標準偏差AccZ','左足首標準偏差GyroX','左足首標準偏差GyroY','左足首標準偏差GyroZ']]) # 説明変数
y = df['work'] # 目的変数

# 定数項(y切片)を必要とする線形回帰のモデル式ならば必須
X = sm.add_constant(x)

# 最小二乗法でモデル化
model = smf.OLS(y, X)
result = model.fit()

# 重回帰分析の結果を表示する
result.summary()

試したこと

model = smf.OLS(y, X)
を
model = sm.OLS(y, X)
にして行ったところ、メモリ不足となりました。

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

行動規範の内容に同意します

回答2件

OLS() は既に質問にて試されておりますとおり smf.OLS() ではなく sm.OLS() となります。

メモリ不足となりました。

こちらに関しては、データの読み込み時に

Python
1df = pd.read_csv(... ,dtype='object')

のように全データをObject型で読み込んだ上で

Python
1x = pd.get_dummies()

を行っているのですから、メモリーが足りなくなっても全く不思議ではないかと・・。

このような処理を行ってしまうと、例えば

a	b
1	1.0
2	2.0
3	3.0
4	4.0

のように通常数値として扱われるデータが、読み込み時にObject型となる為 get_dummies()の対象となり

a_1	a_2	a_3	a_4	b_1.0	b_2.0	b_3.0	b_4.0
1	0	0	0	1	0	0	0
0	1	0	0	0	1	0	0
0	0	1	0	0	0	1	0
0	0	0	1	0	0	0	1

のように　One-Hotデータに展開されてしまいまい、その結果数値（特に少数）を扱っている列ではほぼデータ数（行数）の分だけ説明変数の数（列数）に展開される結果となります。
上記の現象が元の説明変数全てで起こりますので、データx の説明変数の数はどえらい事になっているかと思われます。

とりあえず

Python
1df = pd.read_csv(... ,dtype='object')

の dtype='object' パラメータは外して、本当に必要な部分のみを One-Hot化するようにしてみてください。

投稿2019/09/27 02:25

magichan

総合スコア15898

やりたいことによりますが、OLSを使いたいのであれば、sm.OLSとする必要があります。
sm.OLS()でメモリエラーになったということですが。

x = pd.get_dummies( 略

の部分に問題があるように思います。pd.get_dummies()はカテゴリーデータをOne-Hot化する関数です。列名を見る限り、連続値のようなのでOne-Hot化すればメモリエラーとなることもありそうです。

若干、些末な話かもしれませんが、statsmodels.OLSは最尤推定であって最小二乗法ではありません。最小二乗法にこだわるのであれば、sklearnの回帰モデルを使ったほうがいいと思います。

投稿2019/09/27 00:15

R.Shigemori

総合スコア3376

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！