aqufiz2019/12/11 08:54回答ありがとうございます. yolo9000は読んだのですが,Faster-RCNNとSDDは読んでなかったので読もうと思います. 追加の質問になってしまい申し訳ございません. 3つのサイズを使ってボックスを予想して,最終的に第3スケールの予測が得られた後に, k-平均法クラスタリングを使ってバウンディングボックスを予測しているのはなぜなんでしょうか. bounding box priorsの意味があいまいなのでそこが理解し辛いです.
tiitoi2019/12/11 08:58k平均法はモデルの内部では使っていません。 アンカーボックスの大きさは予め適当に設定しておく必要があるので、それを人が適当に決めてもいいのですが、YOLOv3 ではk平均法でデータセットから決めたという話になります。 AnchorBox の初出は Faster-RCNN だったと思うので、Faster-RCNN の論文を先に読むといいと思います。
aqufiz2019/12/11 09:02すみません,理解できたかもしれません. 節の順番に処理を行っていると考えていたのですが,最終的に第3スケールの予測が得られた後に, アンカーボックスをk-平均クラスタリングで決めて,各グリッドごとに設定されたバウンディングボックス数分アンカーボックスを設置しているという考えでよろしいでしょうか.
tiitoi2019/12/11 09:11 編集日本語の紹介記事がありました。 https://qiita.com/mshinoda88/items/9770ee671ea27f2c81a9#%E3%82%A2%E3%83%B3%E3%82%AB%E3%83%BC%E3%83%9C%E3%83%83%E3%82%AF%E3%82%B9%E3%81%AE%E5%B0%8E%E5%85%A5 物体の矩形を直接モデルで予測する形 (YOLOv1ではそうなっていた)だと精度が出なかったので、最近の物体検出モデルは Anchor Box を元にして作るようになっています。
tiitoi2019/12/11 09:06> アンカーボックスをk-平均クラスタリングで決めて,各グリッドごとに設定されたバウンディングボックス数分アンカーボックスを設置しているという考えでよろしいでしょうか それであっていると思います。例えば、YOLOv3 のオリジナル実装である darknet では anchor box は以下のように大きさが決められています。(この値は k 平均法でデータセットから決めています) https://github.com/pjreddie/darknet/blob/master/cfg/yolov3.cfg anchors = 10,13, 16,30, 33,23, 30,61, 62,45, 59,119, 116,90, 156,198, 373,326
2019/12/11 08:54
2019/12/11 08:58
2019/12/11 09:02
2019/12/11 09:11 編集
2019/12/11 09:06
2019/12/11 09:36