前提
閲覧ありがとうございます.
現在複数の画像(数万単位)の中からベストショットを抽出する機械学習モデルの構築を行なっています.
ベストショットを抽出するにあたり,ベストショット(bs)とベストショットではないもの(nbs)の割合が1:1000程度になってしまっています.
お聞きしたいこと
・適切な学習データとテストデータの割合
・特定のラベルのデータが極端に少ない場合の対処方法
・下記のコードの0.2は全ラベルから0.2の割合で抽出なのか,各ラベル0.2の割合で抽出してきているのか
・正答率が98%~99%となってしまっていますが,これらが学習データテストデータの偏りによって片方のラベルの決めうちでもその程度の精度が出てしまうことの証明と実際の精度の類推方法
お手数お掛け致しますがご教授いただけると幸いです.
該当のソースコード
Python
1X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
試したこと
ベストショットではないものについても,ベストショット数と同数程度アノテーションを行い,それら以外はノンラベルとして半教師あり学習を試みています.
補足情報(FW/ツールのバージョンなど)
Python,sklearn
あなたの回答
tips
プレビュー