Pythonのstatsmodelsを用いたロジスティック回帰

とある分析において、pythonのstatsmodelsを用いてロジスティック回帰に挑戦しています。
最初はsklearnのlinear_modelを用いていたのですが、分析結果からp値や決定係数等の情報を確認することができませんでした。
そこで、statsmodelsに変更したところ、詳しい分析結果を確認することはできたのですが、以下の課題に直面しました。

【課題(目標)】
ロジスティック回帰の結果 (重み・切片・p値・モデルの精度) をそれぞれ取得したい

結果はsummary()で表示することはできるのですが、個々の情報を取得する方法がわかりませんでした。
ご存知の方、ご教授いただけないでしょうか。

以下に環境を記載します。
OS：macOS Sierra
Python：Python3.6.1

【現段階のコード (大まかな流れ)】

python
1import statsmodels.formula.api as smf
2
3# 変数の定義
4X = 説明変数のデータ (pd.DataFrame型をas_matrixに変換)
5Y = 被説明変数のデータ (pd.DataFrame型をas_matrixに変換)
6
7# ロジスティック回帰
8model = smf.Logit(Y,X)
9result = model.fit()
10
11# 結果を表示
12print(result.summary())

tiitoi

2018/10/08 15:19

sklearn.linear_model.LogisticRegression のほうを使うではダメでしょうか？

IOError

2018/10/08 15:23

ご連絡ありがとうございます。おっしゃる通りsklearn.linear_model.LogisticRegressionも試しましたが、重み・切片・p値・モデルの精度を取得することはできるんですか？

行動規範の内容に同意します

回答2件

ベストアンサー

こんな感じでよろしいでしょうか

Python
1# (省略)
2model = smf.Logit(Y,X)
3result = model.fit()
4# 結果を表示
5print(result.summary2())
6# 回帰係数
7print(result.params)
8# 二乗誤差
9print(result.bse)
10# P値
11print(result.pvalues)
12# AIC
13print(result.aic)
14# BIC
15print(result.bic)

投稿2018/10/08 23:46

magichan

総合スコア15898

IOError

2018/10/09 00:03

ご回答いただきありがとうございます。回帰係数・誤差・P値のみならず、AIC・BICまでも教えていただきありがとうございます。そのように求めることができるのですね。一点申し上げると、上記コードにおいてモデルの精度はどこで判断するのでしょうか。 statsmodelsの重回帰分析 (OLS()) では R-Squared がモデルの精度にあたると思うのですが、Logit() のsummaryの見方が十分に理解できていません。そのため、上記のコードでは精度を取得できていないように思われるのですが、いかがでしょうか。ご確認のほどよろしくお願いいたします。

magichan

2018/10/09 00:25

おおっ！！大変失礼しました。一番重要な結果が抜けておりますね。 # McFadden's pseudo-R-squared print(result.prsquared) が一般的にロジステック回帰の当てはまりを見る指標になります

IOError

2018/10/09 01:30

度々すみません。いただいた McFaddenの疑似R-squared が、まさに私が必要としていた情報です。以前のものと合わせて、今回の分析に必要な情報を全て求めることができました。誠にありがとうございました。

行動規範の内容に同意します

精度、重み、切片は取得できます。
sklearn では、p 値を計算する関数は用意されていないみたいです。

python
1import numpy as np
2from sklearn.datasets import load_iris
3from sklearn.linear_model import LogisticRegression
4from sklearn.model_selection import train_test_split
5
6# IRIS データを取得する。
7x, y = load_iris(return_X_y=True)
8# 2クラス問題をやりたいのでラベル 0, 1 のみ取り出す
9x = x[y <= 1]
10y = y[y <= 1]
11
12print(x.shape)  # (150, 4)
13print(y.shape)  # (150,)
14
15# 学習データ、テストデータに分割する。
16x_train, x_test, y_train, y_test = \
17    train_test_split(x, y, train_size=0.75)
18
19#  学習する。
20model = LogisticRegression(solver='lbfgs', multi_class='multinomial').fit(X, Y)
21model.fit(x_train, y_train)
22
23print('weight', model.coef_)  # 重み
24print('intercept', model.intercept_ )  # 切片
25
26accuracy = model.score(x_test, y_test)  # 精度
27print('{:.2%}'.format(accuracy))  # 97.37%

別の方法としては、statsmodels の summary() でこれらの値を表示できているのであれば、内部的に値を保持しているはずなので、summary() の部分のソースコードを見ればわかりそうな気もします。

投稿2018/10/08 16:09

tiitoi

総合スコア21956

IOError

2018/10/08 23:55

ご回答いただきありがとうございます。重み・切片・精度はそれぞれ、coef_, intercept_, score() で求めることができるんですね。勉強になりました。一点申し上げると、p値を求める関数がないとのことでしたが、今回の分析では必須の情報になりますので、どうにか求めることはできないでしょうか。

行動規範の内容に同意します

あなたの回答