ホールドアウト法におけるデータオーギュメンテーションの仕方

回答率: 85.48%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.48%

トップ機械学習に関する質問

Q&A

0回答

487閲覧

ホールドアウト法におけるデータオーギュメンテーションの仕方

総合スコア28

0グッド

1クリップ

投稿2023/01/19 08:22

編集2023/01/19 09:09

0

1

前提

機械学習におけるデータ生成についてです。

0~24までのクラスがあり、各クラス
[67, 7, 13, 3, 42, 9, 34, 26, 18, 2, 32, 2, 14, 9, 54, 10, 2, 4, 3, 2, 4, 2, 5, 1, 2] (総数 367枚)
枚の画像(物体の輪郭内を白塗りした白黒画像)が含まれているとします。

今のところはこのうち
[54, 5, 9, 2, 34, 7, 27, 21, 15, 1, 26, 2, 12, 7, 44, 8, 2, 3, 2, 2, 3, 2, 4, 1, 2] (総数 295枚)
枚を訓練データとして手作業で分け使用しています。

質問内容

これを不均衡データとして、オーギュメンテーション(ぼかし)による水増しを行う場合、一般的にはどのように水増しを行うのでしょうか。

現在は訓練データを
[54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54] (総数 1350枚)
として、全クラスで同じデータ数になるようにクラス内で水増しを行っています。

しかしこの場合、訓練データの総数は1350枚であるのに対しテストデータは水増ししないので、367 - 295 = 72枚となり、テストデータが極端に少なくなってしまい、正当に評価できないという心配があります(ちなみに現在はこちらにデータを使用し、精度100％近く出ています)。

訓練データだけをオーギュメンテーションするため、これはしょうがない現象だと思うのですが、この水増しの仕方で本当に大丈夫なのかと思い質問させていただきました。

2023/01/19 08:34

ほかの質問も含めて「至急」をつけるとむしろ逆効果なので外した方がよいと思います。（中間発表とかでしょうか）

2023/01/19 08:45

やはりそうですか、ご指摘ありがとうございます。中間発表間近で自分で調べても分からなかったので質問させていただいております。

2023/01/19 08:58

質問すること自体はぜんぜんかまわないのですがいくつもたてると回答する側もちょっと「おっくう」になりがちですし質問した側も回答へのレスポンスが大変です。中間発表では現状の進捗と抱えている問題などをそのまま発表するのでいいかと思います。

2023/01/19 09:11

おっしゃる通りですね。しかしながら、この問題を解決しないことには発表できるような進捗も出せないような状況で困っています。

2023/01/19 09:15

厳しい意見となりますが「今までなにをやってきたの？」といわれるでしょうね。ぶっちゃけ中間発表は完璧に準備していたとしても厳しく突っ込まれたり怒られたりする場なので発表後に指導教官に研究内容を変えること含め相談する手もあります。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ機械学習に関する質問

ホールドアウト法におけるデータオーギュメンテーションの仕方

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【サポート業務のお知らせ】ゴールデンウィーク休業につき下記の日程で、お問い合わせ等のサポート業務をお休みいたします。 2024/04/27(土)~2024/04/29(月) 2024/05/03(金)〜2024/05/06(月) なお期間中もサポートへのお問い合わせは受け付けております。

【重要なお知らせ】いつもteratailをご利用いただきありがとうございます。現在、認証システムの修正により、一部のユーザーが強制的にログアウトされる可能性がございます。お手数おかけしますが、再度ログインを行なっていただきますよう宜しくお願いいたします。ご不便をおかけし申し訳ございません。

過去のお知らせを見る