1画像の入力に対して、YOLOを二回適用することは可能でしょうか？

前提

当方大学生です。
現在、YOLOv3を用いて、画像中から人の顔を検出するというタスクに挑戦しています。
その際にふと出た疑問について、ご教示いただけますと幸いです。

質問内容

現在は１画像の入力から、YOLOを用いて顔検出を行っています。
しかしこれでは、例えばポスターなども誤検出してしまいます。
この問題を解決するために、まず人検出のモデルで人がいる領域を検出し、その領域に対して顔検出のモデルを適用することで、精度があがるのではという仮説を考えました。

このように、
-** 1つの画像に対して2回yoloのモデルを適用することは可能なのでしょうか？**
-** また、これは検出精度向上に役立つでしょうか？**
自分が思いつくと言うことはすでに先行事例があるかと思いますが、どなたかご教示いただけますと幸いです。
もし可能であれば論文など紹介いただけますと、参考になります。

つたない質問ですが、どうぞよろしくお願いいたします。

行動規範の内容に同意します

回答1件

1つの画像に対して2回yoloのモデルを適用することは可能なのでしょうか？

可能です。darknet.pyのdetect_image()の呼び出し部分を呼び出せば呼び出しただけ何回でも使えます。

また、これは検出精度向上に役立つでしょうか？

実装方法によると思います。まったく同じ画像を入力しても同じ結果しか返りませんので、粗選別用のYOLOをカスタムするか、別のアルゴリズムであらかじめ画像の一部をくり抜くかが必要です。

が、YOLOの良いところは「You Look Only Once」ですので、こういった実装は繊細な和食にカイエンペッパーを山盛り振りかけるようにYOLOの良さをぶち壊します。

それでも、多少遅くなってもその価値があるのであればこうした実装も必要と思います。大きい画像からそれっぽい領域を切り抜いておいて、大きい画像からそれっぽい領域をなるべく高い解像度で二回目のYOLOにつっこめば顔か誤検出かの判定はできますね。

誤検出が心配であればYOLOの閾値を引き上げるのも手かもしれません。怪しいものは無視する、です。threshという記述がソースコードにあるはずです。もしかしたらYOLO一回で満足のいく結果が出るかもしれません。

しかしこれでは、例えばポスターなども誤検出してしまいます。

写真から「そこにいる人」か「ポスターに写り込んだ人」かの識別をするのは難しいと思います。極端な例では、ポスターをアップで撮った写真の場合、「そこにいる人」か「ポスターに写り込んだ人」か人間でも判別困難です。「ポスターらしさ」を学習させれば、ポスターの除外はできるかもしれませんが、あまり精度は期待できなさそうな気がします。

投稿2021/11/23 22:08