PRNについて基本的なところが理解できているか不安なので質問させていただきます。RPNは下のようなものであると考えているのですが合っているでしょうか?
VGGやZFの最後の畳み込み層の出力である特徴マップに2つの畳み込みをするネットワークがRPNであり、畳み込みのフィルタが学習済みのRPNでは画像を入力することによって物体であるかと物その位置が出力される。
RPNの2つの畳み込みのフィルタを学習するために、IoUやanchor、ground truthを用いて(ここらへんの理解はとりあえず飛ばして)損失関数を小さくするように畳み込みのフィルタを学習させる。
という理解で合っていますか? よろしくお願いします。
あなたの回答
tips
プレビュー