質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
XGBoost

XGBoostは、アンサンブル学習と決定木を組み合わせた手法です。弱学習器の構築時に、以前構築された弱学習器の結果を用いて弱学習器を構築。高度な汎化能力を持ち、勾配ブースティングとも呼ばれています。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

4337閲覧

XGBoostの多項分類(multi:softprob)で、予測確率が返ってこない

mochi_kuma

総合スコア1

XGBoost

XGBoostは、アンサンブル学習と決定木を組み合わせた手法です。弱学習器の構築時に、以前構築された弱学習器の結果を用いて弱学習器を構築。高度な汎化能力を持ち、勾配ブースティングとも呼ばれています。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/07/15 15:08

前提・実現したいこと

機械学習(XGBoost)で、多項分類の学習器を作っています。
タスク変数を"multi:softprob"にしているにもかかわらず、
返ってくる値が予測確率ではなく、整数値で返ってきます。
確率を返すように修正したいのですが、どのようにすれば良いのでしょうか。

該当のソースコード

最後の行のpredの値ですが、本来"multi:softprob"であれば

array([ 4.3175539e-01, 7.0376915e-01, 4.2742041e-01, 1.1947104e+00, 3.1544307e-01, 3.8555548e-01, 1.0443348e+00, 1.2380545e+00, 9.6490324e-01, 8.4362763e-01, 3.3280188e-01, 1.8869884e+00, 8.7775749e-01, 1.8749828e+00, 8.5335791e-01, 5.8013725e-01, ], dtype=float32)

のような確率で返ってくる筈なのですが、

array([2, 2, 2, 2, 0, 0, 2, 2, 2, 0, 0, 2, 2, 1, 0, 1, 2, 0, 2, 0, 2, 2, 0, 2, 0, 2, 0, 0, 0, 2, 0, 2, 2, 2, 2, 2, 0, 0, 2, 0, 2, 0])

上記のような整数値で返って来てしまいます。
以下が学習部分のコードです。

python

1 2param_grid = [ 3 {'Objective': ['multi:softprob'],'eval_metric':['rmse'],'eta': np.arange(0.01,0.30,0.02), 4 'subsample': np.arange(0.1,0.85,0.05),'colsample_bytree':np.arange(0.7,1.0,0.05) 5 6 } 7] 8 9dtrain = xgb.DMatrix(X_train_std,label=y_train) 10dtest = xgb.DMatrix(X_test_std,label=y_test) 11 12# xgboostモデルの作成 13clf = xgb.XGBClassifier() 14# ハイパーパラメータ探索 15clf_cv = GridSearchCV(clf, param_grid,verbose=1) 16clf_cv.fit(X_train_std,y_train) 17 18print(clf_cv.best_params_,clf_cv.best_score_) 19 20clf = xgb.XGBClassifier(**clf_cv.best_params_) 21clf.fit(X_train_std, y_train) 22 23pred = clf.predict(X_test_std) 24pred 25#array([2, 2, 2, 2, 0, 0, 2, 2, 2, 0, 0, 2, 2, 1, 0, 1, 2, 0, 2, 0, 2, 2, 0, 2, 0, 2, 0, 0, 0, 2, 0, 2, 2, 2, 2, 2, 0, 0, 2, 0, 2, 0]) 26

試したこと

同じデータセットで.fitではなく.trainを用いて(GridSearchも行わずに)
実装した際には予測確率で返って来たのですが、.fitでmulti:softprobを行うと
上記のような状態になってしまいました。

どのような原因が考えられるのでしょうか、ご教示いただけると幸いです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

predictメソッドは、識別結果を返します。クラスに属する確率を得るにはpredict_probaを使うといいはずです。

投稿2020/07/15 20:50

R.Shigemori

総合スコア3376

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mochi_kuma

2020/07/16 05:10

ご回答ありがとうございます。 無事、確率を得ることができました。 メソッドについて勉強不足でした。ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問