###困りごと:ロジスティクス回帰で係数を出すも、活用できない・・・
説明変数:(X) TF-IDFを行った単語
目的変数:(Y) YES/NO(0/1)の二値結果
①結果の一番最後に出ている[5.77858626]が、何を表しているのか知りたい・・・。
②すべてまとまって数値結果だけが出ているので、結果▼を単語ごとに出して、どの単語がスコアに寄与したか確認したい。(ランダムフォレストのfeature importanceのような)
ex) apple 0.00096838, banana 0.01422385
→この二点なのですが、そもそも考え方がおかしいなどありましたら、ご教示ください。
result
1[[0.00096838 0.01422385 0.00065778 ... 0.00128578 0.00064246 0.00152874]] [5.77858626] 2Train Score: 0.934 3Test Score: 0.940
python
1from sklearn.model_selection import train_test_split 2from sklearn.linear_model import LogisticRegression 3 4X = TFIDF.toarray()#説明変数 5Y = df[`result'].map({'NO': 0, 'YES': 1}) 6X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2, random_state = 0) 7 8model = LogisticRegression().fit(X_train,Y_train) 9print(model.coef_, model.intercept_) 10 11print("Train Score: {:.3f}".format(model.score(X_train, Y_train))) 12print("Test Score: {:.3f}".format(model.score(X_test, Y_test)))
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/04/11 08:00