グリッドサーチをするとエラーになります(同じデータなのに..)

・グリッドサーチをしないと正常終了します。
・グリッドサーチをするとエラーになります。

同じデータセットを使用しています。
ハイパーパラメータも両者同じです。

何故グリッドサーチはエラーになるのか全くわかりません。。

どなたかアドバイス頂戴できれば助かります。

１．グリッドサーチをしない場合のコード

from sklearn import datasets
from matplotlib import pyplot as plt
import lightgbm as lgb
 
# LGB用のデータセットを登録
lgb_train = lgb.Dataset(x_train_std, y_train)
lgb_test = lgb.Dataset(x_test_std, y_test, reference=lgb_train)

# LightGBMのハイパーパラメータを設定
params = {'task': 'train',              # タスクを訓練に設定
          'boosting_type': 'gbdt',      # GBDTを指定
          'objective': 'multiclass',    # 多クラス分類を指定
          'metric': {'multi_logloss'},  # 多クラス分類の損失（誤差）
          'num_class': 2,               # クラスの数
          'learning_rate': 0.2,         # 学習率
          'max_dapth': 1,        # 木の深さ
          'num_leaves': 5,             # ノードの数
          'min_data_in_leaf': 15        # 決定木ノードの最小データ数
          #'num_iteration': 1000        # 予測器(決定木)の数:イタレーション（反復数）（デフォルトは100）
         } 
 
lgb_results = {}                                    # 学習の履歴を入れる入物
gbm = lgb.train(params=params,                    # ハイパーパラメータをセット
                  train_set=lgb_train,              # 訓練データを訓練用にセット
                  valid_sets=[lgb_train, lgb_test], # 訓練データとテストデータをセット
                  valid_names=['Train', 'Test'],    # データセットの名前をそれぞれ設定
                  num_boost_round=1000,              # 計算回数（デフォルトは100）、'num_iteration と同じ
                  early_stopping_rounds=300,         # この数値までは実行するが、それ以降、過学習が発生したらstopする。
                  evals_result=lgb_results,# 履歴を保存する
                  verbose_eval=0,)         # 途中経過の表示数

loss_train = lgb_results['Train']['multi_logloss']  # 訓練誤差
loss_test = lgb_results['Test']['multi_logloss']    # 汎化誤差
best_iteration = gbm.best_iteration               # 最良の予測器が得られたインタレーション数
print(best_iteration)

２．グリッドサーチをした場合のコード

#グリッドサーチ
import lightgbm as lgb
from sklearn.model_selection import GridSearchCV

# LGB用のデータセットを登録
#lgb_train = lgb.Dataset(x_train_std, y_train)
#lgb_test = lgb.Dataset(x_test_std, y_test, reference=lgb_train)
 
lightgbm = lgb.LGBMClassifier(objective='binary', random_state=0)

params = {'task':[ 'train'],              # タスクを訓練に設定
          'boosting_type': ['gbdt'],      # GBDTを指定
          'objective': ['multiclass'],    # 多クラス分類を指定
          'metric': ['multi_logloss'],  # 多クラス分類の損失（誤差）
          'num_class': [2],               # クラスの数
          'learning_rate': [0.2],         # 学習率
          'max_dapth': [1],        # 木の深さ
          'num_leaves': [5],             # ノードの数
          'min_data_in_leaf': [15],        # 決定木ノードの最小データ数
         }

gbm = GridSearchCV(estimator=lightgbm, 
                   param_grid=params,
                   scoring='accuracy',
                   cv=2, 
                   n_jobs=-1,
                   verbose=0,
                  )

gbm.fit(x_train_std, y_train)

# 最も良いパラメータとスコア
print(gbm.best_params_) 
print(gbm.best_score_)

３．エラーメッセージ（グリッドサーチをした場合）

ValueError: y contains previously unseen labels: [156 353]

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問