(TF-IDFした単語)と(スコア)の相関をロジスティクス回帰で見たい。

###困りごと：ロジスティクス回帰で係数を出すも、活用できない・・・
説明変数：(X) TF-IDFを行った単語
目的変数：(Y) YES/NO(0/1)の二値結果

①結果の一番最後に出ている[5.77858626]が、何を表しているのか知りたい・・・。
②すべてまとまって数値結果だけが出ているので、結果▼を単語ごとに出して、どの単語がスコアに寄与したか確認したい。(ランダムフォレストのfeature importanceのような)
ex) apple 0.00096838, banana 0.01422385
→この二点なのですが、そもそも考え方がおかしいなどありましたら、ご教示ください。

result
1[[0.00096838 0.01422385 0.00065778 ... 0.00128578 0.00064246 0.00152874]] [5.77858626]
2Train Score: 0.934
3Test Score: 0.940

python
1from sklearn.model_selection import train_test_split
2from sklearn.linear_model import LogisticRegression
3
4X = TFIDF.toarray()#説明変数
5Y = df[`result'].map({'NO': 0, 'YES': 1})
6X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2, random_state = 0) 
7
8model = LogisticRegression().fit(X_train,Y_train) 
9print(model.coef_, model.intercept_)
10
11print("Train Score: {:.3f}".format(model.score(X_train, Y_train)))
12print("Test Score: {:.3f}".format(model.score(X_test, Y_test)))

行動規範の内容に同意します

回答1件

[[0.00096838 0.01422385 0.00065778 ... 0.00128578 0.00064246 0.00152874]] [5.77858626]

この部分は、

print(model.coef_, model.intercept_)

に該当するので、前半の配列は重みベクトル、後半はバイアスを示しています。よって質問の[5.77858626]は何かに対する回答はバイアスということになります。

また、被説明変数がYesとなる確率に対して各単語がどの程度寄与しているのかは、前半部分の重みベクトルによって確認することが可能です。重みベクトルの出力順は、被説明変数の並びに対応しているので、これを使うことで単語の特定も可能です。

投稿2021/04/11 02:52

R.Shigemori

総合スコア3376

July_t

2021/04/11 08:00

回答いただきありがとうございます！(コードは色々な方のをコピペしたのもあり理解が追い付いていないことが分かりました！) coefのほうは分かったのですが、、intercept_そもそもバイアスとは何を指すのでしょうか？ググってみたのですが、ここでいう「バイアス」について触れているものがあまりなく・・・。もし参考になるものがあれば教えていただければ幸いです。。

行動規範の内容に同意します