クロスバリデーションのスコアについて

Question

### 前提・実現したいこと勾配ブ―スティング（lightGBM）の交差検証でスコアの平均をとりたいのですが、そこでエラーが発生します。 ### 発生している問題・エラーメッセージ ``` ValueError Traceback (most recent call last) in 14 va_pred = model.predict(train.iloc[valid_index]) 15 va_target = y[valid_index] ---> 16 score += np.sqrt(mean_squared_error(va_pred, va_target)) / NFOLDS 17 y_oof[valid_index] = va_pred 18 print("{:2.0f}分{:2.0f}秒".format((time.time()-fold_start)//60,(time.time()-fold_start)%60)) /usr/anaconda3.7/lib/python3.7/site-packages/sklearn/metrics/regression.py in mean_squared_error(y_true, y_pred, sample_weight, multioutput) 237 """ 238 y_type, y_true, y_pred, multioutput = _check_reg_targets( --> 239 y_true, y_pred, multioutput) 240 check_consistent_length(y_true, y_pred, sample_weight) 241 output_errors = np.average((y_true - y_pred) ** 2, axis=0, /usr/anaconda3.7/lib/python3.7/site-packages/sklearn/metrics/regression.py in _check_reg_targets(y_true, y_pred, multioutput) 75 check_consistent_length(y_true, y_pred) 76 y_true = check_array(y_true, ensure_2d=False) ---> 77 y_pred = check_array(y_pred, ensure_2d=False) 78 79 if y_true.ndim == 1: /usr/anaconda3.7/lib/python3.7/site-packages/sklearn/utils/validation.py in check_array(array, accept_sparse, accept_large_sparse, dtype, order, copy, force_all_finite, ensure_2d, allow_nd, ensure_min_samples, ensure_min_features, warn_on_dtype, estimator) 571 if force_all_finite: 572 _assert_all_finite(array, --> 573 allow_nan=force_all_finite == 'allow-nan') 574 575 shape_repr = _shape_repr(array.shape) /usr/anaconda3.7/lib/python3.7/site-packages/sklearn/utils/validation.py in _assert_all_finite(X, allow_nan) 54 not allow_nan and not np.isfinite(X).all()): 55 type_err = 'infinity' if allow_nan else 'NaN, infinity' ---> 56 raise ValueError(msg_err.format(type_err, X.dtype)) 57 58 ``` ``` Input contains NaN, infinity or a value too large for dtype('float64'). ``` ### 該当のソースコード ```Python NFOLDS = 4 folds = KFold(n_splits=NFOLDS, random_state=777) start = time.time() y_preds = np.zeros(train.shape[0]) y_oof = np.zeros(train.shape[0]) score = 0 splits = folds.split(train, y) for fold_n, (train_index, valid_index) in enumerate(splits): fold_start = time.time() lg_train = lgb.Dataset(train.loc[train_index], label=y[train_index]) lg_test = lgb.Dataset(train.loc[valid_index], label=y[valid_index]) model = lgb.train(params, lg_train, 10000, valid_sets = [lg_train, lg_test], verbose_eval=500, early_stopping_rounds=500) va_pred = model.predict(train.loc[valid_index]) va_target = y[valid_index] score += np.sqrt(mean_squared_error(va_pred, va_target)) / NFOLDS y_oof[valid_index] = va_pred print("{:2.0f}分{:2.0f}秒".format((time.time()-fold_start)//60,(time.time()-fold_start)%60)) print("合計") print("{:2.0f}分{:2.0f}秒".format((time.time()-start)//60,(time.time()-start)%60)) print(f" Mean RMSLE = {score}") print(f"Out of folds RMSLE = {np.sqrt(mean_squared_error(y_oof, y))}") print() va_pred.mean(axis=0) ``` ### 試したこと検証データとその予測値をデータフレームに格納して中身を確認しました。欠損値や無限大は含まれていないようでした。予測値に少数はありますが、計算不可能になるほどではないような気がします。（有効桁数が何桁かはわからないです） ### ご回答よろしくお願いいたします。

Accepted Answer

自己解決に至りました。
見てくださった方、考えてくださった方、本当に申し訳ありません。
ありがとうございます。

```Python
train_data = pd.read_csv('train_data.csv', index_col = 'id')
test_data = pd.read_csv('test_data.csv', index_col = 'id')
```
一番最初の読み込みの部分が原因でした。
ここではデータのインデックスにidというカラムを指定しており、このカラムは１から始まります。
しかし、KFoldのCVではインデックスを通常の0始まりのものを指定しており、中身ではインデックス0のデータがないものとしてNaNとなっていようです。
僕の投稿した内容からはこの原因には気づきにくかったです。申し訳ありませんでした。
```Python
train_data = pd.read_csv('train_data.csv')
test_data = pd.read_csv('test_data.csv')
```
このように直せば、問題なく動きました。

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

関連した質問