質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

2回答

8208閲覧

Statsmodelを用いて重回帰分析を行いたいです

riku3636

総合スコア4

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/09/26 20:58

前提・実現したいこと

重回帰分析を行いたいです。
ここに質問の内容を詳しく書いてください。

発生している問題・エラーメッセージ

下記のエラーが解消できず、困っています。 AttributeError: module 'statsmodels.formula.api' has no attribute 'OLS'

該当のソースコード

import pandas as pd import statsmodels.api as sm import statsmodels.formula.api as smf df = pd.read_csv('912alltimebiased.csv',encoding='cp932',dtype='object') x = pd.get_dummies(df[['右上腕平均AccX','右上腕平均AccY','右上腕平均AccZ','右上腕平均GyroX','右上腕平均GyroY','右上腕平均GyroZ','右上腕標準偏差AccX','右上腕標準偏差AccY','右上腕標準偏差AccZ','右上腕標準偏差GyroX','右上腕標準偏差GyroY','右上腕標準偏差GyroZ','左上腕平均AccX','左上腕平均AccY','左上腕平均AccZ','左上腕平均GyroX','左上腕平均GyroY','左上腕平均GyroZ','左上腕標準偏差AccX','左上腕標準偏差AccY','左上腕標準偏差AccZ','左上腕標準偏差GyroX','左上腕標準偏差GyroY','左上腕標準偏差GyroZ','右手首平均AccX','右手首平均AccY','右手首平均AccZ','右手首平均GyroX','右手首平均GyroY','右手首平均GyroZ','右手首標準偏差AccX','右手首標準偏差AccY','右手首標準偏差AccZ','右手首標準偏差GyroX','右手首標準偏差GyroY','右手首標準偏差GyroZ','左手首平均AccX','左手首平均AccY','左手首平均AccZ','左手首平均GyroX','左手首平均GyroY','左手首平均GyroZ','左手首標準偏差AccX','左手首標準偏差AccY','左手首標準偏差AccZ','左手首標準偏差GyroX','左手首標準偏差GyroY','左手首標準偏差GyroZ','右脚平均AccX','右脚平均AccY','右脚平均AccZ','右脚平均GyroX','右脚平均GyroY','右脚平均GyroZ','右脚標準偏差AccX','右脚標準偏差AccY','右脚標準偏差AccZ','右脚標準偏差GyroX','右脚標準偏差GyroY','右脚標準偏差GyroZ','左脚平均AccX','左脚平均AccY','左脚平均AccZ','左脚平均GyroX','左脚平均GyroY','左脚平均GyroZ','左脚標準偏差AccX','左脚標準偏差AccY','左脚標準偏差AccZ','左脚標準偏差GyroX','左脚標準偏差GyroY','左脚標準偏差GyroZ','右足首平均AccX','右足首平均AccY','右足首平均AccZ', '右足首平均GyroX','右足首平均GyroY','右足首平均GyroZ','右足首標準偏差AccX','右足首標準偏差AccY','右足首標準偏差AccZ','右足首標準偏差GyroX','右足首標準偏差GyroY','右足首標準偏差GyroZ','左足首平均AccX','左足首平均AccY','左足首平均AccZ','左足首平均GyroX','左足首平均GyroY','左足首平均GyroZ','左足首標準偏差AccX','左足首標準偏差AccY','左足首標準偏差AccZ','左足首標準偏差GyroX','左足首標準偏差GyroY','左足首標準偏差GyroZ']]) # 説明変数 y = df['work'] # 目的変数 # 定数項(y切片)を必要とする線形回帰のモデル式ならば必須 X = sm.add_constant(x) # 最小二乗法でモデル化 model = smf.OLS(y, X) result = model.fit() # 重回帰分析の結果を表示する result.summary()

試したこと

model = smf.OLS(y, X)

model = sm.OLS(y, X)
にして行ったところ、メモリ不足となりました。

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

OLS() は既に質問にて試されておりますとおり smf.OLS() ではなく sm.OLS() となります。

メモリ不足となりました。

こちらに関しては、データの読み込み時に

Python

1df = pd.read_csv(... ,dtype='object')

のように全データをObject型で読み込んだ上で

Python

1x = pd.get_dummies()

を行っているのですから、メモリーが足りなくなっても全く不思議ではないかと・・。

このような処理を行ってしまうと、例えば

ab
11.0
22.0
33.0
44.0

のように通常数値として扱われるデータが、読み込み時にObject型となる為 get_dummies()の対象となり

a_1a_2a_3a_4b_1.0b_2.0b_3.0b_4.0
10001000
01000100
00100010
00010001

のように One-Hotデータに展開されてしまいまい、その結果数値(特に少数)を扱っている列ではほぼデータ数(行数)の分だけ説明変数の数(列数)に展開される結果となります。
上記の現象が元の説明変数全てで起こりますので、データx の説明変数の数はどえらい事になっているかと思われます。

とりあえず

Python

1df = pd.read_csv(... ,dtype='object')

dtype='object' パラメータは外して、本当に必要な部分のみを One-Hot化するようにしてみてください。

投稿2019/09/27 02:25

magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

やりたいことによりますが、OLSを使いたいのであれば、sm.OLSとする必要があります。
sm.OLS()でメモリエラーになったということですが。

x = pd.get_dummies( 略

の部分に問題があるように思います。pd.get_dummies()はカテゴリーデータをOne-Hot化する関数です。列名を見る限り、連続値のようなのでOne-Hot化すればメモリエラーとなることもありそうです。

若干、些末な話かもしれませんが、statsmodels.OLSは最尤推定であって最小二乗法ではありません。最小二乗法にこだわるのであれば、sklearnの回帰モデルを使ったほうがいいと思います。

投稿2019/09/27 00:15

R.Shigemori

総合スコア3376

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問