darknet53の構造

Darknet53に関して不明な点があるため質問させていただきます。

YOLOv3の論文ではSoftmax関数を廃止すると記載されていたのですが、
https://qiita.com/mdo4nt6n/items/7cd5f106adc775e5d92b
上記サイトにあるDarknet53の構成では一番下にSoftmax層があるのは何故なのでしょうか。

また、Darknet53は53つの畳み込み層からなると記載されていたのですが、上記サイトの図のConv層を数えても52層しか見つかりませんでした。私の数え間違いでしょうか。

行動規範の内容に同意します

回答1件

ベストアンサー

上記サイトにあるDarknet53の構成では一番下にSoftmax層があるのは何故なのでしょうか。
また、Darknet53は53つの畳み込み層からなると記載されていたのですが、上記サイトの図のConv層を数えても52層しか見つかりませんでした。私の数え間違いでしょうか。

52層 + 全結合層 (softmax) の53層 (darknet53) で ImageNet のクラス分類問題で重みをゼロから学習 (特徴抽出器の重み学習)
このうち、出力層の全結合層を除いた52層をYOLOv3にもってきて、物体検出を学習 (物体検出用に fine-tuning)

という順番になっています。なので、YOLOv3 の一部になっている darknet53 は52層しかありませんが、元は53層あったのです。このことは YOLOv3 の論文には明示的には書かれていないですが、YOLOv2 の論文に書いてあります。

YOLO9000.pdf

For YOLOv2 we first fine tune the classification network
at the full 448 × 448 resolution for 10 epochs on ImageNet.
This gives the network time to adjust its filters to work better
on higher resolution input. We then fine tune the resulting
network on detection.

物体検出関係の論文は既存研究の改良の積み重ねであるため、きちんと理解するには Faster-RCNN 以降の過去の著名な物体検出の論文を古い順に読んでいく必要があると思います。

投稿2020/09/15 15:07

編集2020/09/15 15:07