概要
機械学習の学習データの準備に関する質問です。
Kaggleでは、pseudo labelingというテクニックが時折用いられているようです。
これは、テストデータに対する予測値をその目的変数の値とみなし、(テストデータ+予測値)を学習データに加えて、再度学習させることで精度向上させるものです。画像データでの活用が比較的ありますが、テーブルデータでも有効な場合があるようです。
質問
ラベルがいくら予測値とはいえ、テストデータの情報をガッツリ使ってしまってリークしないのでしょうか?
→pseudo labelingを用いて学習させたモデルを使って、テストデータ(pseudo labelingで用いたものと同じ)の予測を行うとき、その予測精度は不当に上下してしまうのではないかということです。
自分の見解
このテクニックで用いているテストデータにはラベル情報は一切含まれていない(当然だが)。
→ 説明変数と真の目的変数が対応していないため、リークは起こらないと思っていますがどうでしょう?
回答について
回答はざっくりで構いません。
「要約するとこうだから」のように、リークしない理由のイメージが知りたいです。
書籍
「Kaggleで勝つ データ分析の技術」p.266
あなたの回答
tips
プレビュー