【物体検出】YOLOについて詳しく知りたい

物体検出に興味があり、その中でも比較的簡単そうなYOLOに挑戦したいと思っています。
主に以下のサイトを参考にさせていただいているのですが、自分の解釈が合っているのかや疑問についてご教授頂きたいです
http://tech-blog.abeja.asia/entry/object-detection-summary

【自分の解釈yoloに対する解釈】
まず、画像を任意の個数に分割します。
この記事では77で行っているので、以降は77で分割を行っている前提とします
↓
そして49個のブロックに対して、これが何の物体なのか、もしくはただの背景なのかを分類問題で学習させていきます。
↓
それと同時に、検出させたい物体の各ブロックに対して、真ん中を中心として、囲う線までの距離を回帰問題として学習させていきます。

この画像であれば、緑色の点が中心点とすれば、それぞれの緑色の点から水色の線まで、上下左右どのくらいの距離があるのかを学習させていく

ここまでが自分の解釈なのですが合っているでしょうか？

【疑問点】
yoloの弱点として、1つのブロックに対して、1クラスしか分類できないというのはわかるのですが、検出できる物体の数は2つという制約を設けているというのはどういう意味なのでしょうか？
この記事の画像では、犬と自転車の線が被っているブロックがいくつかありますが、同じブロックで3つの線を囲う事は出来ない、という事で合っていますか？

また各ブロックが示した矩形回帰は必ずしも均一になるわけではないと思うのですが、これは平均値を取って矩形を描写させるという事でいいでしょうか？

また矩形回帰の欠損値は二乗和誤差でいいのでしょうか？

詳しい方いらしたらよろしくお願いします

行動規範の内容に同意します

回答2件

ベストアンサー

特に断りのない限り、画像は元論文からの引用です。
パラメータも本論文のまま、クラス数Cは20、分割数Sは7、セルごとのボックス候補数Bを2とします。

YOLOはEnd-to-Endのネットワークの究極形に近いものです。
とりあえず、入出力を確認してみましょう。

入力は448x448x3、これは元画像(3ch)です。出力は7x7x30、こっちに着目する必要があります。

ご指摘の通り、YOLOでは画像を7x7分割して物体検出／識別を行います。
一つのセルに対して30次元の情報があるのですが、その内訳は次のようになっています。

クラスごとの所属確率 (20次元)
セルごとのバウンディングボックス(BB)候補数 (2個/セル)
x BBの位置と形を表すのに必要なパラメータ (5次元： x, y, width, height, confidence)

よって、30 = 20 + (5 x 2)です。

49個のブロックに対して、何の物体なのか、ただの背景なのかを分類問題で学習させる。

YOLOでは背景クラスを用意していません。20クラスそれぞれに対する尤度が計算されます。
ちなみに、背景の誤検出が少ないのもYOLOの強みの一つだったりします。

各ブロックに対して、真ん中を中心として、囲う線までの距離を回帰問題として学習させる。

さきほども述べたように、(x, y, width, height, confidence)を計算しているだけです。
相対座標だったか絶対座標だったかはちょっと覚えてないですが、前者だったような...
本家の実装が公開されているので、かなりの根気を要しますが、読んでみても良いでしょう。

それぞれの緑色の点から水色の線まで、上下左右どのくらいの距離があるのかを学習させていく

セルごとにBBが決定されるので、セル同士の干渉はないです。

YOLOの弱点として、検出できる物体数は2つという制約を設けているのはどういう意味か？

さきほども述べたように、『セルごとのBB候補数』がネットワークの形状に影響するためです。

各ブロックが示した矩形の平均値を取っているのか？

矩形のうち、一定以上confidenceが高いものを選んでいるはずです。
実際に動かしてみると、複数のBBが同じ物体を囲むことはしばしばあります。

矩形回帰の欠損値は二乗和誤差か？

元論文には以下のように書いてあります。

We optimize for sum-squared error in the output of our model.

矩形回帰／クラス分類に分けて誤差を計算しているわけではないかと思います。

正直、私自身うろ覚え／理解不足な点も多くあります。
強い関心がありますようなら、元論文を読んでみるといいですよ。YOLOは読みやすいです。

もう一度リンクを張っておきます。

元論文： You Only Look Once
本家実装： darknet
公式サイト： pjreddie.com

...はい、見てわかるように、YOLOの開発陣は中二病をこじらせていることに定評があります。

投稿2017/07/25 06:55

編集2017/07/26 03:44

LouiS0616

総合スコア35676

退会済みユーザー

2017/07/25 21:44

回答ありがとうございます！自分が想像していたものと全然違ったのですが、YOLOがどういうものなのか大分見えてきました英語がかなり苦手なので、論文は避けていたのですが、こうも言ってられないので、コツコツと読んでいこうと思いますあともう一つ質問してもよろしいでしょうか？形を決めるのに必要なcondidenceとはどういったものなのでしょうか？