###質問内容
ILSVRC に使われる CNN モデルの学習データに関する質問です。
学習データの画像サイズが、既存 CNN モデルの推奨サイズより大きい場合はダウンスケーリングすると思うのですが、
画像サイズが小さい場合はアップスケーリングをするのが一般的なのでしょうか?
VGG16 (推奨サイズ 224×224) でアップスケーリングする場合、たとえば
64×64 → 224×224 にすると 1×1 あたり 3.5×3.5[pix]
32×32 → 224×224 にすると 1×1 あたり 7×7[pix]
16×16 → 224×224 にすると 1×1 あたり 14×14[pix]
となるので、フィルタ(カーネル)サイズ 3×3 では特徴抽出がうまくできないのではないか?という疑問があります。
アップスケーリングをしない(64×64 で入力する)場合、VGGならプーリング5回でfc層手前で 2×2[pix] になるので、
それはそれで学習しにくいのではないか?という疑問があります。
また、入力画像サイズやモデルのフィルタサイズを変更して学習する場合、
変更前のモデルで Fine-Tuning された重みは、初期値として使えるのでしょうか?
###補足情報(言語/FW/ツール等のバージョンなど)
TensorFlow(Python 3.x) で構築
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。