YOLO9000 バンディングボックスの予測について

現在YOLO9000の論文を読んでおります。
URL : https://arxiv.org/abs/1612.08242

バンディングバックスの予測の部分でお伺いしたいことがあります。
tx ty tw thはネットワークの出力でそれぞれバンディングボックスの中心座標、幅、高さを表している(学習データに正解値としてバンディングボックスの中心座標、幅、高さが保存されており、それに近い値となっている)解釈でいるのですが、その解釈で合っていますでしょうか。

その場合わざわざ、tx ty tw thを用いてbx by bw bhを算出している意図を把握しかねております。
tx ty tw thとbx by bw bh間の違いを踏まえてこの意図についてご回答いただけると幸いです。

行動規範の内容に同意します

回答1件

ベストアンサー

その場合わざわざ、tx ty tw thを用いてbx by bw bhを算出している意図を把握しかねております。

tx ty tw thとbx by bw bh間の違いを踏まえてこの意図についてご回答いただけると幸いです。

YOLOv1 の頃は矩形の座標、大きさを直接予測するようになっていましたが、Anchor Box を基準にして矩形を予測したほうが学習が上手くいくことが実験的にわかったので、YOLOv2 以降はその算出方式になってます。指数関数やσをとっている理由としては、例えば、負の値の幅、高さがでてきたりすることがないようにするなど予測される値の範囲を制限するための都合です。

b_w, b_h のほうは、ネットワークの出力値の指数関数を取るので、出力に関わらず、常に正になる。矩形の幅、高さは正であることが保証される。
b_x, b_y のほうは、シグモイド関数の値域は [0, 1] なので、σ(t) + c で計算される座標値が各グリッド内に収まることが保証される。

投稿2021/02/03 04:35

編集2021/02/03 04:42

tiitoi

総合スコア21960

2yu

2021/02/03 08:41

早速、ご回答いただき、ありがとうございます。出力値tを単純に正にするために、指数関数やσが使用されていたのですね。ご回答いただいた内容に追加で2点お伺いしたいことがあります。 1. YOLOv1では負の値が出力されることがあると思うが、その場合、出力するバンディングボックスをどのようにしていたのか。 2. 「Anchor Box を基準にして矩形を予測したほうが学習が上手くいく」ことについて →出力tx ty tw thをbx by bw bhに変換した後の値を用いて、学習データを用いて誤差計算、バックプロパゲーションを行ったほうが学習がうまくいくということでしょうか。(論文を読んでも損失関数が見当たらなくて把握することができませんでした、、、) 把握していらっしゃる範囲でご回答いただけると幸いです。

tiitoi

2021/02/03 08:57 編集

> YOLOv1では負の値が出力されることがあると思うが、その場合、出力するバンディングボックスをどのようにしていたのか。矩形の xywh は MSE で損失計算するので、負の値でも学習上問題ないです。 Anchor Box 使った今のやり方のほうが精度がよいと実験でわかったので、そのやり方になったというだけです。 > 論文を読んでも損失関数が見当たらなくて把握することができませんでした矩形の xywh は MSE、クラススコアはバイナリクロスエントロピーで誤差計算して、その2つを足し合わせて YOLO の損失を計算しています。ディープラーニングの論文は概要だけでモデルの詳細まで書かれていないことが多いので、GitHub で実装例を探してコードを読んだほうが早いと思います。

2yu

2021/02/04 00:37

承知しました。詳細はソースコードを見て学習しようと思います。ご回答ありがとうございました。

行動規範の内容に同意します