質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

0回答

414閲覧

機械学習における学習データとテストデータの割合が極端な場合の対処方法

arapon516

総合スコア15

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2023/01/17 05:48

前提

閲覧ありがとうございます.
現在複数の画像(数万単位)の中からベストショットを抽出する機械学習モデルの構築を行なっています.
ベストショットを抽出するにあたり,ベストショット(bs)とベストショットではないもの(nbs)の割合が1:1000程度になってしまっています.

お聞きしたいこと

・適切な学習データとテストデータの割合
・特定のラベルのデータが極端に少ない場合の対処方法
・下記のコードの0.2は全ラベルから0.2の割合で抽出なのか,各ラベル0.2の割合で抽出してきているのか
・正答率が98%~99%となってしまっていますが,これらが学習データテストデータの偏りによって片方のラベルの決めうちでもその程度の精度が出てしまうことの証明と実際の精度の類推方法

お手数お掛け致しますがご教授いただけると幸いです.

該当のソースコード

Python

1X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

試したこと

ベストショットではないものについても,ベストショット数と同数程度アノテーションを行い,それら以外はノンラベルとして半教師あり学習を試みています.

補足情報(FW/ツールのバージョンなど)

Python,sklearn

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

pig_vba

2023/01/17 09:44 編集

不均衡データ、それも1:1000レベルの場合全体正答率は全く役に立ちません。仮に全てnbs判定でも99.9%の正答率になるからです。真陽性率 (Recall)や適合率 (Precision) を出力して本当に検知できているのか確認する必要があります。 対処法としては、BSデータに重み付けを行う・ダウンサンプリングしてnbsデータを減らすなどが考えられます。 概要の理解にはこちらのサイトあたりが参考になりそうです。 https://blog.amedama.jp/entry/imbalanced-data >下記のコードの0.2は全ラベルから0.2の割合で抽出なのか,各ラベル0.2の割合で抽出してきているのか デフォルト値の場合、「全体から」ランダムで20%です。つまり、bsデータがどちらかにしか存在しない可能性は十分にあります。 引数stratifyを指定してください。BSデータを均一に分割できます。 https://note.nkmk.me/python-sklearn-train-test-split/
arapon516

2023/01/19 05:46

完璧なご回答ご丁寧にありがとうございます. とても参考になりました. このご提案を元に実際に結果の考察,検証を行おうと思います.
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問