pythonによるデータ解析(ロジスティック解析)をしたのですが行き詰まってます・・

Question

python初学者です。また、統計の勉強についても不足していると自覚しております。
今回はpythonによって手持ちのデータのロジスティック回帰分析を行っていた所、数カ所で行き詰まり、疑問が生じているので、ご回答頂けますと幸いです。

![イメージ説明](9da4729cd6ffca163747c3c10f449cea.png)

こちらの画像にあるとおり、OUT[5]にあるようなdfというファイルを読み込み(実際のn数276)、
目的変数を"outcome"、説明変数を"sex","age","a","b",・・・,"m"としてロジスティック回帰分析をしたいと思っています。

In[7]のように正解率を出して、過学習が起きてないことを確認し、

![イメージ説明](59b3c3c8f2fce56c9d3f8dfa33f327c2.png)

の様に各説明変数のオッズ比を出しました。(方法A)

また、別のサイトを参考に以下の様にコマンドを記述しても行いました。

![イメージ説明](8a225f4bbd40501f7507de12f65d03b2.png)

ここのcoef_の一つ一つに以下の様に計算すとオッズ比がでるのかと思います。(方法B)

![イメージ説明](cdba319f62c79de9b14950cc116f121f.png)



ここで幾つか疑問(行き詰まり)があります。

①方法Aと方法Bでは、それぞれの説明変数のオッズ比がずれている様なのですが、その理由がわかりません

②各説明係数のオッズ比を出す際のp値を出すことは出来ませんでしょうか？

③In[7]の部分で、"sex","age"を除いているのですが、それらを入れると以下の様なerrorが出てしまいます。
"sex"や"age"がfloat型でないからかと思いますが、こちらを解消する方法はありますでしょうか？
![イメージ説明](d1e659e8ef4c0b240adf716c1a418026.png)
![イメージ説明](f24463936a794752435e0bfedc3605cc.png)

長文となり、申し訳ありませんが、ご回答頂けますと幸いです。
何卒宜しくお願い申し上げます。

Accepted Answer

1.オッズ比不一致の件
haytaka2049さんの通りで、statsmodelsは定数項（バイアス）がないモデルがデフォルトなので、結果として係数が相違します。（result.summaryをみると定数項がないことがわかります）

2.p値出力方法の件
scikitlearnのロジスティック回帰にはp値を出力する機能がないので自力実装が必要です。以下を参考にするといいかと思います。

https://gist.github.com/brentp/5355925

3.エラー対策
エラーの原因は性別が数値情報ではないことです。よって、男性を0、女性を1と数値に変換しておけばエラーは回避できると思います

Answer

statsmodelsでやる場合は、デフォルト設定だとバイアス抜きのモデルになります。scikit-learnはデフォルトで足します。

statsmodelsの方でも足してあげると良いでしょう。

[statsmodels.tools.tools.add_constant — statsmodels](http://www.statsmodels.org/devel/generated/statsmodels.tools.tools.add_constant.html)

あとは最適化の方法などが違ったり、正則化などの絡みで微妙にずれるでしょう。

p値はstatsmodelsではデフォルトで出ています。scikit-learnでは計算が必要です（とてもというほどでもないが面倒臭いのでおすすめしない。英語で調べると多分出てきます）。

Answer

＞"sex"や"age"がfloat型でないからかと思います
sex='M'→sex_m=1,sex_f=0
sex='F'→sex_m=0,sex_f=1
のように変換してやればエラーにならないかと思います。
one-hotエンコーディングで調べてみてください。

関連した質問