機械学習における学習データとテストデータの割合が極端な場合の対処方法

前提

閲覧ありがとうございます．
現在複数の画像(数万単位)の中からベストショットを抽出する機械学習モデルの構築を行なっています．
ベストショットを抽出するにあたり，ベストショット(bs)とベストショットではないもの(nbs)の割合が1:1000程度になってしまっています．

お聞きしたいこと

・適切な学習データとテストデータの割合
・特定のラベルのデータが極端に少ない場合の対処方法
・下記のコードの0.2は全ラベルから0.2の割合で抽出なのか，各ラベル0.2の割合で抽出してきているのか
・正答率が98%~99%となってしまっていますが，これらが学習データテストデータの偏りによって片方のラベルの決めうちでもその程度の精度が出てしまうことの証明と実際の精度の類推方法

お手数お掛け致しますがご教授いただけると幸いです．

該当のソースコード

Python
1X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

試したこと

ベストショットではないものについても，ベストショット数と同数程度アノテーションを行い，それら以外はノンラベルとして半教師あり学習を試みています．

補足情報（FW/ツールのバージョンなど）

Python,sklearn

pig_vba

2023/01/17 09:44 編集

不均衡データ、それも1:1000レベルの場合全体正答率は全く役に立ちません。仮に全てnbs判定でも99.9%の正答率になるからです。真陽性率 (Recall)や適合率 (Precision) を出力して本当に検知できているのか確認する必要があります。対処法としては、BSデータに重み付けを行う・ダウンサンプリングしてnbsデータを減らすなどが考えられます。概要の理解にはこちらのサイトあたりが参考になりそうです。 https://blog.amedama.jp/entry/imbalanced-data >下記のコードの0.2は全ラベルから0.2の割合で抽出なのか，各ラベル0.2の割合で抽出してきているのかデフォルト値の場合、「全体から」ランダムで20%です。つまり、bsデータがどちらかにしか存在しない可能性は十分にあります。引数stratifyを指定してください。BSデータを均一に分割できます。 https://note.nkmk.me/python-sklearn-train-test-split/