不均衡データを目的変数のクラスのデータを同じになるようにリサンプリングしたデータを用いて,機械学習モデルのハイパーパラメータの探索をグリッドサーチを用いて行いたいです.
python のscikit-learnを用いて機械学習モデルの交差検定を行いたいと思っています.
(手法はlightGBMです)
手元のデータが不均衡データなのでリサンプリングしたデータを使用します.
しかし,グリッドサーチの際の検証データにリサンプリングしたデータを渡してしまうと評価が適切に行われないため,検証データは元の不均衡データを用いたいと考えています.
GridsearchCV
を用いると簡単にハイパーパラメータの探索が行えますが,訓練データと検証データを分けることができません.訓練データのみ不均衡をなくしたリサンプリング済みのデータを使用し,検証データは元のデータを使用したいです.
訓練データと検証データをk組渡すことでグリッドサーチをする方法は何かないでしょうか?
(リサンプリングした(k-1)/k個の訓練データと1/k個の検証データの組み合わせをk組先に用意はしています.)
グリッドサーチなので探索したいハイパラの分だけfor文を回せば理論上はできますが,うまくやる方法があれば教えていただきたいです.
あなたの回答
tips
プレビュー