ロジスティック回帰分析モデル適応

ロジスティック回帰分析後のモデル適用についてです。
hogeデータに対してロジスティック回帰分析を行い、
log(p/(1-p)) = B0+B1X1+B2X2+....+BnXn
におけるB0～Bnまでの値を取得しました。

これを用いて未知のデータの判定を行います。
判定がされていないデータのX1～Xnを代入するのはわかるのですが、
それ以降が今ひとつわかりません。

B0+B1X1+B2X2+....+BnXn
この解をどう見たら(どう処理したら)未知データがtrue/false(例えばですが)のどちらか判断できるのでしょうか。
また、解が負の数になることはあるのでしょうか。あるとしたらどのような場合でしょう。

行動規範の内容に同意します

回答2件

まず、ロジスティック回帰分析（ロジスティック回帰モデリング）について説明しますが、この分析手法は1つの目的変数 y と複数の説明変数 x.1, . . . , x.p の間の関係性を線形式のモデルy=b.0+ b.1 x.1 + ... + b.p x.pで表すことを目的にしています。しかし、ロジスティック回帰では y の値が 0 or 1 であるのに対し x.1, . . . , x.pの値は (-無限〜無限)の値を取るため、上手くモデルを当てはめることができません。そこで、z=log(y/(1-y)) と変形した z に対し、前述の線形式のモデルを当てはめ、その z を y=1/{1+exp(-z)} と変換することで、元々の目的である y と x.1, . . . , x.p の関係を表すことができます。

さて、上記を踏まえてご質問にお答えしますが、まずトレーニングデータの y には 1(TRUEのとき) or 0 (FALSEのとき)が入っているとします。（※これは別に逆でもかまいませんが、最終的な解釈が変わります）
このとき、モデルの推定を行って得られた b.0, b.1, . . . , b.p の係数をもとにテストデータ x.1, . . . , x.p からz の値を求めると -無限から無限の値が得られ, これを y = 1/{1+exp(-z)} と変換します。

このとき得られた y の値が 0 より大きければ TRUE、0より小さければ FALSE と判断します。（このように z から y に変換すれば y の値は必ず 0〜1の間の値となります。）

投稿2015/12/01 01:57

Victorian-Vat

総合スコア104

下記ページの説明が分かりやすいですね。

ロジスティック回帰分析
 ロボティクスにおける対数オッズについて

さて、B0+B1X1+B2X2+....+BnXn という式の値は、上記２番目のリンク先に説明されているように －∞～＋∞ の値を取ります。
この値(対数オッズ、またはロジットとも言う)は計算上の便宜の為に対数の形を取っていますが、あくまでもある事象の発生確率(0～1)の表現方法の一つに過ぎない(0～1 → －∞～＋∞ とマッピングしただけ)なので、＋/－の符合に意味は有りません。

そして、最初のリンク先に説明されているように、発生確率そのものを求めるというよりも、各説明変数の有意性を検定する目的で使用されるケーキが多いようです。

投稿2015/11/25 11:00