前提
機械学習におけるデータ生成についてです。
0~24までのクラスがあり、各クラス
[67, 7, 13, 3, 42, 9, 34, 26, 18, 2, 32, 2, 14, 9, 54, 10, 2, 4, 3, 2, 4, 2, 5, 1, 2] (総数 367枚)
枚の画像(物体の輪郭内を白塗りした白黒画像)が含まれているとします。
今のところはこのうち
[54, 5, 9, 2, 34, 7, 27, 21, 15, 1, 26, 2, 12, 7, 44, 8, 2, 3, 2, 2, 3, 2, 4, 1, 2] (総数 295枚)
枚を訓練データとして手作業で分け使用しています。
質問内容
これを不均衡データとして、オーギュメンテーション(ぼかし)による水増しを行う場合、一般的にはどのように水増しを行うのでしょうか。
現在は訓練データを
[54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54] (総数 1350枚)
として、全クラスで同じデータ数になるようにクラス内で水増しを行っています。
しかしこの場合、訓練データの総数は1350枚であるのに対しテストデータは水増ししないので、367 - 295 = 72枚 となり、テストデータが極端に少なくなってしまい、正当に評価できないという心配があります(ちなみに現在はこちらにデータを使用し、精度100%近く出ています)。
訓練データだけをオーギュメンテーションするため、これはしょうがない現象だと思うのですが、この水増しの仕方で本当に大丈夫なのかと思い質問させていただきました。
あなたの回答
tips
プレビュー