YOLO Darknet 学習・推論での画像サイズについて

前提・実現したいこと

現在YOLOv3のDarknetを使い、独自データでの学習を行っています。
学習したい画像は2500×1800で大きなサイズです。

Darknetではネットワークへの入力画像サイズが416×416など32の倍数で決まっており、学習の前に画像サイズをネットワークサイズにリサイズされてから入力されるということが調べて分かりました。

学習時には持っている画像を自分がリサイズを行い416×416などにして、推論時には元の画像サイズを用いて行うことは検出の精度等に影響を与えるのでしょうか？
推論時に2500×1800→416×416では対象の物体が学習時よりも小さくなることが考えられ、ご存じの方がいらっしゃったらお力を貸していただきたいです。

行動規範の内容に同意します

回答1件

ベストアンサー

学習時には持っている画像を自分がリサイズを行い416×416などにして、推論時には元の画像サイズを用いて行うことは検出の精度等に影響を与えるのでしょうか？

元の画像中にそれなりに大きく写っていれば、リサイズ後も見えているとは思うので、検出はできると思います。

逆にリサイズ後に対象物が見えなくなるほど小さくなってしまうようであれば、検出に影響が出ると思います。その場合、入力サイズ (416, 416) の段階でも検出対象物が見えていればいいので、元の入力サイズをいくつかのバッチに分割し、それぞれにバッチに対して推論すればよいかと思います。(例: 縦横2等分で4個の画像に小分けにして、それぞれ推論する)

投稿2020/08/10 12:20

編集2020/08/10 12:20