深層距離学習でtransformありのDataloaderを使用する際に、trainデータとvalidation データを分ける必要はあるのか

PytorchでArcfaceを用いた深層距離学習を行っているのですが、Dataloaderを作成する際に(言葉で説明することが難しいのですが…)、datasetを分離する必要はあるのかどうかわからなかったため、teratailにて質問させていただきます。

Dataloaderではtransformを用いてaugmentationを行なっているため、同じdatasetをDataloaderの対象にしたとしても1枚1枚の画像は見た目上、異なると思います。この場合、datasetを分割せず、同じdatasetに対して(同じ枚数のdatasetに対して)train用のDataloaderとvalidation用のDataloaderを準備し、学習を行うことは妥当でしょうか？

というのも、学習対象のクラス数(ラベル数)が1000〜2000程度で、クラス間の類似はあまりなく(ないとは言い切れませんが...)、1クラス当たり最低2枚〜最高20枚と、1クラス当たりの画像が少なめです。train用とvalidation用で元の画像のDatasetを(例えば8:2で)分割してしまうと、0〜1枚の画像で学習しなければならないクラスが出てくるため、学習に悪影響が出ると考えました。

あまり纏まっていない文章で申し訳ありません。
どうぞよろしくお願い致します。

行動規範の内容に同意します

回答1件

ベストアンサー

それほど少ない個数のデータセットで1000種類に分類できるようなモデルを作ることができるということを期待するのが間違っています。
水増し(Data Augmentation)を使ったとしても1万個程度では足りず、70万個ぐらいは必要でしょう。

MNISTは、訓練用データ6万枚とテストデータ1万枚を使って、10個の数字を見分けるためのモデルを作るためのデータセットです。
もしも、訓練用データ200枚とテストデータ20枚で文字を見分けるようなモデルを作れるのであれば7万枚のデータは不要ですが、そうはなっていません。
1000個に分類するためのデータセットは、1万個からなるデータセットでは全く不足で、7百万個ぐらいは必要でしょう。水増しで10分の1でやるとしても70万個は必要です。

投稿2022/01/23 07:17