質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
YOLO

YOLOとは、画像検出および認識用ニューラルネットワークです。CベースのDarknetというフレームワークを用いて、画像や動画からオブジェクトを検出。リアルタイムでそれが何になるのかを認識し、分類することができます。

CNN (Convolutional Neural Network)

CNN (Convolutional Neural Network)は、全結合層のみではなく畳み込み層とプーリング層で構成されるニューラルネットワークです。画像認識において優れた性能を持ち、畳み込みニューラルネットワークとも呼ばれています。

Q&A

解決済

1回答

2574閲覧

YOLOv3の各層の出力サイズについて

kyokio

総合スコア560

YOLO

YOLOとは、画像検出および認識用ニューラルネットワークです。CベースのDarknetというフレームワークを用いて、画像や動画からオブジェクトを検出。リアルタイムでそれが何になるのかを認識し、分類することができます。

CNN (Convolutional Neural Network)

CNN (Convolutional Neural Network)は、全結合層のみではなく畳み込み層とプーリング層で構成されるニューラルネットワークです。画像認識において優れた性能を持ち、畳み込みニューラルネットワークとも呼ばれています。

0グッド

0クリップ

投稿2021/02/12 07:45

YOLOv3の各層の出力について

YOLOv3について調べていたら気にならることがあったので質問させていただきます。

YOLOv3は三層で検出を行います。
初めに一番小さいサイズで検出を行い、特徴マップを2倍アップサンプリングして大きい層での検出に移ります。
YOLOv3の構造

どのサイトを見ても三層の検出に使うfeature mapのサイズはそれぞれ(1/8),(1/16),(1/32)となっています。
これ自体は合ってると思います。
YOLO9000の論文

YOLO’s convolutional layers downsam- ple the image by a factor of 32 so by using an input image of 416 we get an output feature map of 13 × 13.

とかいてありYOLOv3もこれを引き継いでいると思う。

実際、Keras実装のコードにも
input_shape = (416,416) # multiple of 32, hw
って書いてあるので

YOLOv3の出力サイズ、計算合わなくない?

YOLOv3のネットワークは全てのconv層でpadding=1とされています。
Daraknet53部分のResidual Block以外のconv層はstride=2で他はstride=1になっています。

CNNの出力は
output
Oh=output
P=padding
Fh=Filter height
S=stride

なので、
(3×3)フィルター、padding=1、stride=1のときサイズは変わらない

でも、
(1×1)フィルター、padding=1、stride=1のときサイズが+2されるはずです

(3×3)フィルター、padding=1、stride=2の層が5層ありこれで大体半分になり
416→208→104→52→26→13
になり、52、26、13がそれぞれ(1/8),(1/16),(1/32)になっています。

しかし、(1×1)フィルター、padding=1、stride=1のたびに+2されていたら52,26,13にならずにずれが生じると思います。

YOLOv3のフィルター

以下がYOLOv3の構造です。
ここで確認しましたがこの図のフィルターはだいたい合ってます。(検出の際の最後のチャネルが違う気がする)
フィルター

ソースコード

試したこと

調べてみたらそれっぽいサイトを見つけた。
このサイトでは、stride=1じゃないときに少し削れる場合があるという説明でした。

コード書いて計算してみた。

cpp

1#include<bits/stdc++.h> 2using namespace std; 3 4int culc(int shape,int size,int stride,int pad=1){ 5 6 int ans=(shape+2*pad-size)/stride; 7 ans++; 8 cout << "output:" << ans << endl; 9 return ans; 10} 11 12int main(){ 13 14 int shape=416; 15 int size,stride; 16 while(1){ 17 cout << "size,stride" << endl; 18 cin >> size >> stride; 19 shape=culc(shape,size,stride); 20 } 21 22} 23 24
size,stride 3 1 output:416 size,stride 3 2 output:208 size,stride 1 1 output:210 size,stride 3 1 output:210 size,stride 3 2 output:105 size,stride 1 1 output:107 size,stride 3 1 output:107 size,stride 1 1 output:109 size,stride 3 1 output:109 size,stride 3 2 output:55 size,stride 1 1 output:57 size,stride 3 1 output:57 size,stride 1 1 output:59 size,stride 3 1 output:59 size,stride 1 1 output:61 size,stride 3 1 output:61 size,stride 1 1 output:63 size,stride

(1/8)の層のサイズを計算してみたが63になりました。
52のはずが11もずれました。

なぜなのでしょう?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

paddingって基本画像のサイズが前の層より小さくなってしまう時に回避するためにつけるので11のカーネルでpaddingつけることってあんまりないと思います。
YOLOv3でも多分3
3のフィルターの時だけpadding=1がついて、1*1のフィルターの時はpaddingは0じゃないかと思うのですがどうでしょうか。

投稿2021/02/12 09:15

aoies

総合スコア331

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kyokio

2021/02/12 09:25

僕もそう思ったんですけど https://github.com/pjreddie/darknet/blob/master/cfg/yolov3.cfg ここ見ると1×1のフィルターでもpadding=1になってるんですよ 以下、コードの一部 ーーーーーーーーーーーーー [convolutional] batch_normalize=1 filters=128 size=1 stride=1 pad=1 activation=leaky -------------------------------------- 実行するときにpadding=0に上書きしてるんですかね?
aoies

2021/02/12 09:56 編集

すいません。 たしかに公式の方のコードはよくわかりませんね。正直そもそもdarknet自体がよくわからないです。 kerasとかpytorchで実装してる人のを見るとこちらではpaddingの値はカーネルサイズで決定しているみたいなので結局そうなってるのかな?とは思うのですが。 Keras https://github.com/qqwweee/keras-yolo3/blob/master/yolo3/model.py Pytorch https://github.com/eriklindernoren/PyTorch-YOLOv3/blob/master/models.py
kyokio

2021/02/12 11:12

ありがとうございます。 送っていただいたURL(Kerasの方)に以下のような記述がありました。 darknet_conv_kwargs['padding'] = 'valid' if kwargs.get('strides')==(2,2) else 'same' pythonの三項演算子が 条件式が真のときに評価される式 if 条件式 else 条件式が偽のときに評価される式 で、kerasでは valid=パディングしない same=入力と同じサイズに出力を調整するようパディング なので、stride=2以外の時はサイズが変わらないようにパディングしてるみたいですね 本家のdarknetは該当コードが探せなかったのですが多分同じことをしてるはずですよね...多分
aoies

2021/02/12 11:37

なんかわだかまりの残る解答ですみません...
kyokio

2021/02/12 14:03

少しスッキリしました。 ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問