前提・実現したいこと
機械学習(XGBoost)で、多項分類の学習器を作っています。
タスク変数を"multi:softprob"にしているにもかかわらず、
返ってくる値が予測確率ではなく、整数値で返ってきます。
確率を返すように修正したいのですが、どのようにすれば良いのでしょうか。
該当のソースコード
最後の行のpredの値ですが、本来"multi:softprob"であれば
array([ 4.3175539e-01, 7.0376915e-01, 4.2742041e-01, 1.1947104e+00, 3.1544307e-01, 3.8555548e-01, 1.0443348e+00, 1.2380545e+00, 9.6490324e-01, 8.4362763e-01, 3.3280188e-01, 1.8869884e+00, 8.7775749e-01, 1.8749828e+00, 8.5335791e-01, 5.8013725e-01, ], dtype=float32)
のような確率で返ってくる筈なのですが、
array([2, 2, 2, 2, 0, 0, 2, 2, 2, 0, 0, 2, 2, 1, 0, 1, 2, 0, 2, 0, 2, 2, 0, 2, 0, 2, 0, 0, 0, 2, 0, 2, 2, 2, 2, 2, 0, 0, 2, 0, 2, 0])
上記のような整数値で返って来てしまいます。
以下が学習部分のコードです。
python
1 2param_grid = [ 3 {'Objective': ['multi:softprob'],'eval_metric':['rmse'],'eta': np.arange(0.01,0.30,0.02), 4 'subsample': np.arange(0.1,0.85,0.05),'colsample_bytree':np.arange(0.7,1.0,0.05) 5 6 } 7] 8 9dtrain = xgb.DMatrix(X_train_std,label=y_train) 10dtest = xgb.DMatrix(X_test_std,label=y_test) 11 12# xgboostモデルの作成 13clf = xgb.XGBClassifier() 14# ハイパーパラメータ探索 15clf_cv = GridSearchCV(clf, param_grid,verbose=1) 16clf_cv.fit(X_train_std,y_train) 17 18print(clf_cv.best_params_,clf_cv.best_score_) 19 20clf = xgb.XGBClassifier(**clf_cv.best_params_) 21clf.fit(X_train_std, y_train) 22 23pred = clf.predict(X_test_std) 24pred 25#array([2, 2, 2, 2, 0, 0, 2, 2, 2, 0, 0, 2, 2, 1, 0, 1, 2, 0, 2, 0, 2, 2, 0, 2, 0, 2, 0, 0, 0, 2, 0, 2, 2, 2, 2, 2, 0, 0, 2, 0, 2, 0]) 26
試したこと
同じデータセットで.fitではなく.trainを用いて(GridSearchも行わずに)
実装した際には予測確率で返って来たのですが、.fitでmulti:softprobを行うと
上記のような状態になってしまいました。
どのような原因が考えられるのでしょうか、ご教示いただけると幸いです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/07/16 05:10