上記サイトにあるDarknet53の構成では一番下にSoftmax層があるのは何故なのでしょうか。
また、Darknet53は53つの畳み込み層からなると記載されていたのですが、上記サイトの図のConv層を数えても52層しか見つかりませんでした。私の数え間違いでしょうか。
- 52層 + 全結合層 (softmax) の53層 (darknet53) で ImageNet のクラス分類問題で重みをゼロから学習 (特徴抽出器の重み学習)
- このうち、出力層の全結合層を除いた52層をYOLOv3にもってきて、物体検出を学習 (物体検出用に fine-tuning)
という順番になっています。なので、YOLOv3 の一部になっている darknet53 は52層しかありませんが、元は53層あったのです。このことは YOLOv3 の論文には明示的には書かれていないですが、YOLOv2 の論文に書いてあります。
YOLO9000.pdf
For YOLOv2 we first fine tune the classification network
at the full 448 × 448 resolution for 10 epochs on ImageNet.
This gives the network time to adjust its filters to work better
on higher resolution input. We then fine tune the resulting
network on detection.
物体検出関係の論文は既存研究の改良の積み重ねであるため、きちんと理解するには Faster-RCNN 以降の過去の著名な物体検出の論文を古い順に読んでいく必要があると思います。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/09/15 17:27