「クラスBの訓練データからのアンダーサンプリングにおいて、(正解ラベルであるクラス情報を持たない)テストデータを用いてサンプリングを変える」ということについては、問題無いです。テストデータにおける正解ラベルを使っていないことがポイントですので。また、未知のテストデータを使っても精度が十分なのであれば、リークしている危険性も少ないものと思います。
不均衡データ学習については、以下の記事が、網羅性や信頼性があり、とても参考になります。アンダーサンプリング以外にもさまざまな手段がありますので、参考にしてください。
【ML Tech RPT. 】第4回 不均衡データ学習 (Learning from Imbalanced Data) を学ぶ(1)
【ML Tech RPT. 】第4回 不均衡データ学習 (Learning from Imbalanced Data) を学ぶ(2)
【ML Tech RPT. 】第4回 不均衡データ学習 (Learning from Imbalanced Data) を学ぶ(3)
(1)の記事には以下の文章があり、テストデータを用いたアンダーサンプリングの最適化手法にも言及していますので、質問者様に直接に参考になるのでは(質問者様の手法とやや違うかもですが、論文化されている手法であれば研究に使いやすいかと・・・)、と思います。
しかしながら、一般的な Undersampling では、学習に有用なデータをサンプリング時に捨てたり、全体のデータ数が不足したりするため、次の二つの問題を引き起こす原因になることに注意する必要があります。一つ目が、学習した分類器の分散が大きくなる問題です。これに対処するためには、UnderBagging [*1] のような平均化戦略を取るのが一般的です。UnderBaggingは、Undersampling を実施してk通りの部分集合を作成し 、各部分集合ごとに分類器を学習し Bagging でアンサンブルする手法です。二つ目が、学習後に得られる事後分布が歪む問題です。これに対処するためには、テスト用のデータの事前分布を用いて事後分布を修正する必要があります。[*2] では、EMアルゴリズムに基づいて事前分布を推定しつつ、事後分布を修正する手法が提案されています。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。