Faster R-CNNのRPNのRPNの学習が理解できない

#Faster R-CNNのRPNのRPNの学習が理解できない

Faster R-CNNの勉強をしています。
いくつかのサイトを見ているのですが、RPNの学習で理解できないとこりがありました。
以下、読んでいるサイトです。
サイト①
サイト②
サイト③

###実際の物体領域(ground truth)はラベル付けしておかないといけないのか？
サイト①に以下のように書かれています。

元論文に書かれているように、RPNでは

・あるAnchor boxの中身が背景か物体か
・物体だった場合、ground truthとどのくらいズレているか
の2つを学習させます。

この説明自体は理解できたのですが、ここでground truthをラベル付けしなければいけないのか？と疑問に思いました。
RPNが学習する際にはground truthはわからないのでここでは人によるラベル付け必要なはずです。
しかし、これはMNISTのラベル付けよりもはるかに大変な作業なはずです。
MNISTが一枚の画像に大して正解ラベルが１つ何に対し、RPNでは画像一枚に少なくとも物体が１つ以上存在すると考えて、物体の個数*頂点の座標分ラベルを与えなくてはいけないはずです。

###それとも学習済みRPNを使用するのか？
それとも、RPNは一度作ってしまえば、物体がある領域を提案し、設定しておいたAnchor boxの中から一番合うAnchor boxを選ぶだけなので使い回しが効くのでしょうか？
研究や開発の際には学習済みのRPNを使うのでしょうか？

サイト④のmodels/faster_rcnn.pyの42行目に

self.RPN.train = False

とあるのでそうなのかなと思いました。

行動規範の内容に同意します

回答1件

ベストアンサー

しかし、これはMNISTのラベル付けよりもはるかに大変な作業なはずです。

MNISTが一枚の画像に大して正解ラベルが１つ何に対し、RPNでは画像一枚に少なくとも物体が１つ以上存在すると考えて、物体の個数*頂点の座標分ラベルを与えなくてはいけないはずです。

人手によるラベル付けが必要です。
数値で座標を直接入力するのではなく、以下のような GUI ツールでラベル付けします。

GUI ツールを使うにしてもアノテーションは時間がかかる作業ですが、この手間を惜しんで学習データ数が少ないと精度が高いモデルはできません。(経験上、1クラスあたり300枚以上は必要、データセットの規模にもよるが数十時間は普通にかかる)
物体検出のモデルを作るとしたら、モデルは Faster-RCNN とか既存のものを使えばいいですし、学習は待つだけなので、人手の作業工数としては8割ぐらいはこのアノテーション作業に掛かるはずです。

お金を出せるのであれば、クラウドソーシングサービスを利用して、この手間を代行してもらうことは可能です。

投稿2020/08/28 11:04

編集2020/08/28 11:16

tiitoi

総合スコア21956

kyokio

2020/08/28 14:04 編集

回答ありがとうございます。やはり自分でラベル付けしないといけないんですね。誰かが作ったモデルからRPNだけ撮ってこれないかなとか考えたのですがend-to-endで学習してるので、RPNを用意したクラス用になってそうなので無理そうですね。お金ないので自分で、ラベル付けがんばってみようと思います笑ありがとうございました。

行動規範の内容に同意します