質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.37%
Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

Darknet

Darknetは、C言語で記述されたオープンソースのニューラルネットフレームワークで簡単にインストールすることが可能です。学習済みモデルとアルゴリズムも配布しており、ダウンロードすれば容易に動かすこともできます。

YOLO

YOLOとは、画像検出および認識用ニューラルネットワークです。CベースのDarknetというフレームワークを用いて、画像や動画からオブジェクトを検出。リアルタイムでそれが何になるのかを認識し、分類することができます。

CNN (Convolutional Neural Network)

CNN (Convolutional Neural Network)は、全結合層のみではなく畳み込み層とプーリング層で構成されるニューラルネットワークです。画像認識において優れた性能を持ち、畳み込みニューラルネットワークとも呼ばれています。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

解決済

1回答

5494閲覧

darknet53の構造

shocora

総合スコア8

Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

Darknet

Darknetは、C言語で記述されたオープンソースのニューラルネットフレームワークで簡単にインストールすることが可能です。学習済みモデルとアルゴリズムも配布しており、ダウンロードすれば容易に動かすこともできます。

YOLO

YOLOとは、画像検出および認識用ニューラルネットワークです。CベースのDarknetというフレームワークを用いて、画像や動画からオブジェクトを検出。リアルタイムでそれが何になるのかを認識し、分類することができます。

CNN (Convolutional Neural Network)

CNN (Convolutional Neural Network)は、全結合層のみではなく畳み込み層とプーリング層で構成されるニューラルネットワークです。画像認識において優れた性能を持ち、畳み込みニューラルネットワークとも呼ばれています。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

0グッド

0クリップ

投稿2020/09/14 07:28

Darknet53に関して不明な点があるため質問させていただきます。

YOLOv3の論文ではSoftmax関数を廃止すると記載されていたのですが、
https://qiita.com/mdo4nt6n/items/7cd5f106adc775e5d92b
上記サイトにあるDarknet53の構成では一番下にSoftmax層があるのは何故なのでしょうか。

また、Darknet53は53つの畳み込み層からなると記載されていたのですが、上記サイトの図のConv層を数えても52層しか見つかりませんでした。私の数え間違いでしょうか。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

上記サイトにあるDarknet53の構成では一番下にSoftmax層があるのは何故なのでしょうか。
また、Darknet53は53つの畳み込み層からなると記載されていたのですが、上記サイトの図のConv層を数えても52層しか見つかりませんでした。私の数え間違いでしょうか。

  1. 52層 + 全結合層 (softmax) の53層 (darknet53) で ImageNet のクラス分類問題で重みをゼロから学習 (特徴抽出器の重み学習)
  2. このうち、出力層の全結合層を除いた52層をYOLOv3にもってきて、物体検出を学習 (物体検出用に fine-tuning)

という順番になっています。なので、YOLOv3 の一部になっている darknet53 は52層しかありませんが、元は53層あったのです。このことは YOLOv3 の論文には明示的には書かれていないですが、YOLOv2 の論文に書いてあります。

YOLO9000.pdf

For YOLOv2 we first fine tune the classification network

at the full 448 × 448 resolution for 10 epochs on ImageNet.
This gives the network time to adjust its filters to work better
on higher resolution input. We then fine tune the resulting
network on detection.

物体検出関係の論文は既存研究の改良の積み重ねであるため、きちんと理解するには Faster-RCNN 以降の過去の著名な物体検出の論文を古い順に読んでいく必要があると思います。

投稿2020/09/15 15:07

編集2020/09/15 15:07
tiitoi

総合スコア21956

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

shocora

2020/09/15 17:27

回答ありがとうございます。YOLOv3の論文は読んでいたのですが中途半端な理解しかできていなかったです。これから過去の著名論文を順に読んでいこうと思います。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.37%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問