皆さん お世話になっております。
DLの聖殿の回りを彷徨ってまいりました。
最近入口を見つけて一歩中へ踏み出しようとしたが、
すぐさま扉にぶつかって、頭がまた痛くなりました。
例えば YOLOというやつ。
訓練時の学習画像とTESTの画像のサイズ同じだと感じております。
こりゃ不思議だなと。
学習画像はobjectのサイズに沿って四角にクリップした画像で、これを416×416の入力画像としたら、TEST画像も416×416。
ところが、TEST画像は風景画像で、その中に現れるobjectは当然風景画像のサイズより遙かに小さいはずです。
即ち、学習されたobjectのサイズは416×416で、推定しようとする実際の対象のサイズは416×416より数倍か、10数倍小さいという事になります。
自分の知る限り、CNNがそれほどscale不変性機能を持っていないですけれども、
このCNNにおける学習画像と推論(TEST)時の画像とのサイズ不一致問題はどのようなメカニズムで解決されたのでしょうか。
どうぞ宜しくお願い致します。