PytorchでArcfaceを用いた深層距離学習を行っているのですが、Dataloaderを作成する際に(言葉で説明することが難しいのですが…)、datasetを分離する必要はあるのかどうかわからなかったため、teratailにて質問させていただきます。
Dataloaderではtransformを用いてaugmentationを行なっているため、同じdatasetをDataloaderの対象にしたとしても1枚1枚の画像は見た目上、異なると思います。この場合、datasetを分割せず、同じdatasetに対して(同じ枚数のdatasetに対して)train用のDataloaderとvalidation用のDataloaderを準備し、学習を行うことは妥当でしょうか?
というのも、学習対象のクラス数(ラベル数)が1000〜2000程度で、クラス間の類似はあまりなく(ないとは言い切れませんが...)、1クラス当たり最低2枚〜最高20枚と、1クラス当たりの画像が少なめです。train用とvalidation用で元の画像のDatasetを(例えば8:2で)分割してしまうと、0〜1枚の画像で学習しなければならないクラスが出てくるため、学習に悪影響が出ると考えました。
あまり纏まっていない文章で申し訳ありません。
どうぞよろしくお願い致します。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2022/01/23 08:19
2022/01/23 08:25