質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

1360閲覧

(TF-IDFした単語)と(スコア)の相関をロジスティクス回帰で見たい。

July_t

総合スコア4

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/04/11 00:23

###困りごと:ロジスティクス回帰で係数を出すも、活用できない・・・
説明変数:(X) TF-IDFを行った単語
目的変数:(Y) YES/NO(0/1)の二値結果

①結果の一番最後に出ている[5.77858626]が、何を表しているのか知りたい・・・。
②すべてまとまって数値結果だけが出ているので、結果▼を単語ごとに出して、どの単語がスコアに寄与したか確認したい。(ランダムフォレストのfeature importanceのような)
ex) apple 0.00096838, banana 0.01422385
→この二点なのですが、そもそも考え方がおかしいなどありましたら、ご教示ください。

result

1[[0.00096838 0.01422385 0.00065778 ... 0.00128578 0.00064246 0.00152874]] [5.77858626] 2Train Score: 0.934 3Test Score: 0.940

python

1from sklearn.model_selection import train_test_split 2from sklearn.linear_model import LogisticRegression 3 4X = TFIDF.toarray()#説明変数 5Y = df[`result'].map({'NO': 0, 'YES': 1}) 6X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2, random_state = 0) 7 8model = LogisticRegression().fit(X_train,Y_train) 9print(model.coef_, model.intercept_) 10 11print("Train Score: {:.3f}".format(model.score(X_train, Y_train))) 12print("Test Score: {:.3f}".format(model.score(X_test, Y_test)))

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

[[0.00096838 0.01422385 0.00065778 ... 0.00128578 0.00064246 0.00152874]] [5.77858626]

この部分は、

print(model.coef_, model.intercept_)

に該当するので、前半の配列は重みベクトル、後半はバイアスを示しています。よって質問の[5.77858626]は何かに対する回答はバイアスということになります。

また、被説明変数がYesとなる確率に対して各単語がどの程度寄与しているのかは、前半部分の重みベクトルによって確認することが可能です。重みベクトルの出力順は、被説明変数の並びに対応しているので、これを使うことで単語の特定も可能です。

投稿2021/04/11 02:52

R.Shigemori

総合スコア3376

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

July_t

2021/04/11 08:00

回答いただきありがとうございます!(コードは色々な方のをコピペしたのもあり理解が追い付いていないことが分かりました!) coefのほうは分かったのですが、、intercept_そもそもバイアスとは何を指すのでしょうか? ググってみたのですが、ここでいう「バイアス」について触れているものがあまりなく・・・。 もし参考になるものがあれば教えていただければ幸いです。。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問