XGBoostのDMatrixでValueエラーが発生

Question

### 前提・実現したいこと kaggleのHouse Prices - Advanced Regression Techniquesで XGBosotの回帰モデルで予測をしたいがDMatrixで変換する際にエラーが発生する。 https://www.kaggle.com/c/house-prices-advanced-regression-techniques/overview/tutorials ■■な機能を実装中に以下のエラーメッセージが発生しました。 ### 発生している問題・エラーメッセージ ``` エラーメッセージ ``` ``` --------------------------------------------------------------------------- ValueError Traceback (most recent call last) in ----> 1 dtrain = xgb.DMatrix(tr_x, label=tr_y) 2 dvalid = xgb.DMatrix(va_x, label = va_y) 3 dtest = xgb.DMatrix(test_x) ~/miniforge3/envs/arm_tenso_env/lib/python3.8/site-packages/xgboost/core.py in inner_f(*args, **kwargs) 504 for k, arg in zip(sig.parameters, args): 505 kwargs[k] = arg --> 506 return f(**kwargs) 507 508 return inner_f ~/miniforge3/envs/arm_tenso_env/lib/python3.8/site-packages/xgboost/core.py in __init__(self, data, label, weight, base_margin, missing, silent, feature_names, feature_types, nthread, group, qid, label_lower_bound, label_upper_bound, feature_weights, enable_categorical) 614 return 615 --> 616 handle, feature_names, feature_types = dispatch_data_backend( 617 data, 618 missing=self.missing, ~/miniforge3/envs/arm_tenso_env/lib/python3.8/site-packages/xgboost/data.py in dispatch_data_backend(data, missing, threads, feature_names, feature_types, enable_categorical) 705 return _from_tuple(data, missing, threads, feature_names, feature_types) 706 if _is_pandas_df(data): --> 707 return _from_pandas_df(data, enable_categorical, missing, threads, 708 feature_names, feature_types) 709 if _is_pandas_series(data): ~/miniforge3/envs/arm_tenso_env/lib/python3.8/site-packages/xgboost/data.py in _from_pandas_df(data, enable_categorical, missing, nthread, feature_names, feature_types) 295 feature_types: Optional[List[str]], 296 ): --> 297 data, feature_names, feature_types = _transform_pandas_df( 298 data, enable_categorical, feature_names, feature_types) 299 return _from_numpy_array(data, missing, nthread, feature_names, ~/miniforge3/envs/arm_tenso_env/lib/python3.8/site-packages/xgboost/data.py in _transform_pandas_df(data, enable_categorical, feature_names, feature_types, meta, meta_type) 240 categorical type is supplied, DMatrix parameter `enable_categorical` must 241 be set to `True`.""" --> 242 raise ValueError(msg + ', '.join(bad_fields)) 243 244 # handle feature names ValueError: DataFrame.dtypes for data must be int, float, bool or category. When categorical type is supplied, DMatrix parameter `enable_categorical` must be set to `True`.LotFrontage, LotConfig, LandSlope, Neighborhood, Condition1, Condition2, BldgType, HouseStyle, RoofStyle, RoofMatl, Exterior1st, Exterior2nd, MasVnrType, MasVnrArea, ExterQual, ExterCond, Foundation, BsmtQual, BsmtCond, BsmtExposure, BsmtFinType1, BsmtFinType2, Heating, HeatingQC, CentralAir, Electrical, KitchenQual, Functional, FireplaceQu, GarageType, GarageYrBlt, GarageFinish, GarageQual, GarageCond, PavedDrive ``` ### 該当のソースコード ```python import numpy as np import pandas as pd import xgboost as xgb from sklearn.preprocessing import LabelEncoder from sklearn.model_selection import KFold test = pd.read_csv("test.csv") train = pd.read_csv("train.csv") #train dataを目的変数と説明変数に分類する #目的変数はsales price train_x = train.drop(["SalePrice"], axis=1) train_y = train["SalePrice"] #test dataの説明変数の設定 test_x = test.copy() #欠損値をmissという文字列に置き換える test_x = test_x.fillna("miss") train_x = train_x.fillna("miss") #ラベルエンコーディングの実施 le = LabelEncoder() for column in ["MSZoning","Street","LotShape","LandContour","Fence","Fence","MiscFeature","SaleType","SaleCondition","PoolQC","Alley","Utilities"]: le.fit(train_x[column]) train_x[column] = le.transform(train_x[column]) for column in ["MSZoning","Street","LotShape","LandContour","Fence","Fence","MiscFeature","SaleType","SaleCondition","PoolQC","Alley","Utilities"]: le.fit(test_x[column]) test_x[column] = le.transform(test_x[column]) #テストデータとバリデーションデータに分類する kf = KFold(n_splits=4, shuffle=True, random_state=71) for tr_idx, va_idx in kf.split(train_x): tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx] tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx] dtrain = xgb.DMatrix(tr_x, label=tr_y) dvalid = xgb.DMatrix(va_x, label = va_y) dtest = xgb.DMatrix(test_x) ---------エラー発生--------------- --------------------------------------------------------------------------- ValueError Traceback (most recent call last) in ----> 1 dtrain = xgb.DMatrix(tr_x, label=tr_y) 2 dvalid = xgb.DMatrix(va_x, label = va_y) 3 dtest = xgb.DMatrix(test_x) ~/miniforge3/envs/arm_tenso_env/lib/python3.8/site-packages/xgboost/core.py in inner_f(*args, **kwargs) 504 for k, arg in zip(sig.parameters, args): 505 kwargs[k] = arg --> 506 return f(**kwargs) 507 508 return inner_f ~/miniforge3/envs/arm_tenso_env/lib/python3.8/site-packages/xgboost/core.py in __init__(self, data, label, weight, base_margin, missing, silent, feature_names, feature_types, nthread, group, qid, label_lower_bound, label_upper_bound, feature_weights, enable_categorical) 614 return 615 --> 616 handle, feature_names, feature_types = dispatch_data_backend( 617 data, 618 missing=self.missing, ~/miniforge3/envs/arm_tenso_env/lib/python3.8/site-packages/xgboost/data.py in dispatch_data_backend(data, missing, threads, feature_names, feature_types, enable_categorical) 705 return _from_tuple(data, missing, threads, feature_names, feature_types) 706 if _is_pandas_df(data): --> 707 return _from_pandas_df(data, enable_categorical, missing, threads, 708 feature_names, feature_types) 709 if _is_pandas_series(data): ~/miniforge3/envs/arm_tenso_env/lib/python3.8/site-packages/xgboost/data.py in _from_pandas_df(data, enable_categorical, missing, nthread, feature_names, feature_types) 295 feature_types: Optional[List[str]], 296 ): --> 297 data, feature_names, feature_types = _transform_pandas_df( 298 data, enable_categorical, feature_names, feature_types) 299 return _from_numpy_array(data, missing, nthread, feature_names, ~/miniforge3/envs/arm_tenso_env/lib/python3.8/site-packages/xgboost/data.py in _transform_pandas_df(data, enable_categorical, feature_names, feature_types, meta, meta_type) 240 categorical type is supplied, DMatrix parameter `enable_categorical` must 241 be set to `True`.""" --> 242 raise ValueError(msg + ', '.join(bad_fields)) 243 244 # handle feature names ValueError: DataFrame.dtypes for data must be int, float, bool or category. When categorical type is supplied, DMatrix parameter `enable_categorical` must be set to `True`.LotFrontage, LotConfig, LandSlope, Neighborhood, Condition1, Condition2, BldgType, HouseStyle, RoofStyle, RoofMatl, Exterior1st, Exterior2nd, MasVnrType, MasVnrArea, ExterQual, ExterCond, Foundation, BsmtQual, BsmtCond, BsmtExposure, BsmtFinType1, BsmtFinType2, Heating, HeatingQC, CentralAir, Electrical, KitchenQual, Functional, FireplaceQu, GarageType, GarageYrBlt, GarageFinish, GarageQual, GarageCond, PavedDrive ``` ### 試したこと DMatrixをせずに予測しようとしたが同様のエラーがfitの際に発生。 ### 補足情報（FW/ツールのバージョンなど）ここにより詳細な情報を記載してください。

Accepted Answer

object型のものをint型に変更して修正完了

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問