【Python】Scikit-learnでの機械学習における不正解データの抽出【機械学習】

現在Twitter上のデータマイニングの過程でScikit-learnによる機械学習を用いて二値分類する識別機を作っています。識別機にテストデータを識別させた際に生じる不正解データがどのようなものなのかを知りたいのですがScikit-learnで便利な関数など無いでしょうか？
詳しい型宜しくお願いします。

行動規範の内容に同意します

回答2件

予測結果ラベルと実際のラベルが相違するデータを抽出すればいいかと思います。コードのイメージとしては

特徴量のデータフレーム[予測結果のラベル != 実際のラベル]

という感じで不正解データの特徴量が一覧で取得できます

投稿2018/01/15 15:15

R.Shigemori

総合スコア3378

lalalabit

2018/01/17 01:35

解答ありがとうございます。コードのイメージが掴めたので試してみようと思います。ありがとうございました。

行動規範の内容に同意します

ラベル別に与えれば、正しくないものはすぐにわかるのではないでしょうか？

python
1X, y = get_input_output() #input, output
2model = get_model() #model
3model.fit(X, y)
4
5py = model.predict(X[y==0])
6np.where(py==1) #wrong prediction: should be 0
7
8py = model.predict(X[y==1])
9np.where(py==0) #wrong prediction: should be 1

投稿2018/01/13 10:24

編集2018/01/24 08:41

mkgrei

総合スコア8562

lalalabit

2018/01/15 05:34

解答ありがとうございます。申し訳ありませんが当方勉強不足のため、ラベル別に与えるということがよく分からないです・・・。もう少しだけ噛み砕いて説明して頂けるとありがたいです。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.25%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する