質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.93%

XGBoostの多項分類(multi:softprob)で、予測確率が返ってこない

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 346

mochi_kuma

score 1

前提・実現したいこと

機械学習(XGBoost)で、多項分類の学習器を作っています。
タスク変数を"multi:softprob"にしているにもかかわらず、
返ってくる値が予測確率ではなく、整数値で返ってきます。
確率を返すように修正したいのですが、どのようにすれば良いのでしょうか。

該当のソースコード

最後の行のpredの値ですが、本来"multi:softprob"であれば

array([ 4.3175539e-01,  7.0376915e-01,  4.2742041e-01,  1.1947104e+00,
        3.1544307e-01,  3.8555548e-01,  1.0443348e+00,  1.2380545e+00,
        9.6490324e-01,  8.4362763e-01,  3.3280188e-01,  1.8869884e+00,
        8.7775749e-01,  1.8749828e+00,  8.5335791e-01,  5.8013725e-01,
        ],
      dtype=float32)


のような確率で返ってくる筈なのですが、

array([2, 2, 2, 2, 0, 0, 2, 2, 2, 0, 0, 2, 2, 1, 0, 1, 2, 0, 2, 0, 2, 2, 0, 2, 0, 2, 0, 0, 0, 2, 0, 2, 2, 2, 2, 2, 0, 0, 2, 0, 2, 0])


上記のような整数値で返って来てしまいます。
以下が学習部分のコードです。

param_grid = [
    {'Objective': ['multi:softprob'],'eval_metric':['rmse'],'eta': np.arange(0.01,0.30,0.02),
     'subsample': np.arange(0.1,0.85,0.05),'colsample_bytree':np.arange(0.7,1.0,0.05)

     }
]

dtrain = xgb.DMatrix(X_train_std,label=y_train)
dtest = xgb.DMatrix(X_test_std,label=y_test)

# xgboostモデルの作成
clf = xgb.XGBClassifier()
# ハイパーパラメータ探索
clf_cv = GridSearchCV(clf, param_grid,verbose=1)
clf_cv.fit(X_train_std,y_train)

print(clf_cv.best_params_,clf_cv.best_score_)

clf = xgb.XGBClassifier(**clf_cv.best_params_)
clf.fit(X_train_std, y_train)

pred = clf.predict(X_test_std)
pred
#array([2, 2, 2, 2, 0, 0, 2, 2, 2, 0, 0, 2, 2, 1, 0, 1, 2, 0, 2, 0, 2, 2, 0, 2, 0, 2, 0, 0, 0, 2, 0, 2, 2, 2, 2, 2, 0, 0, 2, 0, 2, 0])

試したこと

同じデータセットで.fitではなく.trainを用いて(GridSearchも行わずに)
実装した際には予測確率で返って来たのですが、.fitでmulti:softprobを行うと
上記のような状態になってしまいました。

どのような原因が考えられるのでしょうか、ご教示いただけると幸いです。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

predictメソッドは、識別結果を返します。クラスに属する確率を得るにはpredict_probaを使うといいはずです。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/07/16 14:10

    ご回答ありがとうございます。
    無事、確率を得ることができました。
    メソッドについて勉強不足でした。ありがとうございます。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.93%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る