DNNについてこの考え方が正しいかどうか

総合スコア30933

2018/06/25 06:28 編集

hayataka2049 様分かりやすいお返答ありがとうございます。 Global Average Pooling（GAP）を読ませていただきました。こちらの説明も非常に素晴らしいですね。特にその図が良かったと思います。理屈的な面では、mapのdimがすでに十分に小さくなっていて(７×7), さらにFully Connected + Dropoutが効いている以上、 (７×7)の平均を取って使うのも問題ないと直感します。些細な事ですみませんが、図の中に二つの『fully connected + ReLU』(水色)　： "１×１×4096" と "１×１×1000" の中の "１×１"はどういう意味でしょうか。また宜しくお願い致します。

2018/06/25 08:55 編集

ちょっと厳密さに欠けるかもしれませんが、あえて言えば１×１×4096なら4096次元のベクトルと同じ、ということです

2018/06/25 13:55

flatten後のdenseを変な書き方をしていますね。VGG-16だと一般的な表現でしょうか…

2018/06/26 03:31

hayataka2049さんお返答ありがとうございます。 hayataka2049さんが書かれました：＞あえて言えば１×１×4096なら4096次元のベクトルと同じ、ということですこの場合、もし「2×2×4096」や「 2×3×4096」なら　何を意味するのでしょうか。要は"2×2" や "2×3" に具現されている概念的な事を知りたいのです。またどうぞ宜しくお願い致します。

2018/06/26 04:01

最後の次元がチャンネルの数です。例えばrgbの256x256ピクセルの画像は256x256x3とみなせます。 1x1x4096は1x1つまり1ピクセルが4096チャンネル分あるものです。

2018/06/26 09:25

回答者の代わりに説明していただいてありがとうございますけっきょくやることは4096ユニットの全結合層に突っ込むだけなので、あまり深い意味はないってことで良い訳ですよね

2018/06/26 09:25

ご教授有難うございます。頭が鈍くて御免なさい！もしかして、"1x1"、"2×2"や "2×3"の部分はfilterのdimでしょうか。それはCNNの話として覚えていますが、『fully connected』層にもfilter概念があるのでしょうか。

2018/06/26 09:54

＞もしかして、"1x1"、"2×2"や "2×3"の部分はfilterのdimでしょうか。＞それはCNNの話として覚えていますが、『fully connected』層にもfilter概念があるのでしょうか。ではないですね。最初の2つは端的に言えば画像の縦横に対応するものですこれを減らす処理がpoolingに対応します。画像を縮小していくようなものそれで畳み込みすると、フィルタの形と数に応じて最後の次元が増えたり減ったりしていく訳です

2018/06/27 08:47 編集

hayataka2049 様有難うございます。＞これを減らす処理がpoolingに対応します。画像を縮小していくようなものそれで畳み込みすると、フィルタの形と数に応じて最後の次元が増えたり減ったりしていく訳です。 Q：単にdown/up samplingの話でしょうか、それとも畳み込みと『逆畳み込み』の話でしょうか。 ---------- ここでいう『逆畳み込み』とは本当の『逆畳み込み』ではなくDNN分野の独特の呼び方 ➡ subpixelに対する畳み込みでup samplingのような事です。

2018/06/27 04:56 編集

上の自分のコメントを読み返したら、指示語が雑で我ながらよくわからないコメントになっていた・・・すみません、書いたときちょっと眠かったんです。そのコメントの最後の行は１つの上の行と上とつながってないんだな・・・ poolingと畳込みは別物だし、逆畳み込みは今回考えているような識別モデルでは出番はないでしょう。ダウン/アップサンプリングも関係あるかどうかは微妙な気がする

2018/06/27 05:01

畳み込みに応じて最後の次元が増減するというのは、フィルタが複数のチャネルをまとめるのに使えること、フィルタを複数用いることで逆に複数のチャネルを生み出せることを考えるとわかりますとりあえずチャネル数だけ見るとして、○x○x3に△x△x3のフィルタを1つかけたら□x□x1になり、2つかけたら□x□x2。○x○x3に△x△x1を3つかけたら□x□x9という塩梅です

2018/06/27 08:53

有難うございました。前回引用のフォーマットが悪かったんで御免なさいね！

行動規範の内容に同意します

classificationとobject detectionは別に考えた方がスッキリする気がします。

classificationでは多少のスケールの変動を許しますが、その程度のものです。

object detectionはclassificationを内包して、全体から部分を検出・判定します。

投稿2018/06/25 13:58

総合スコア8560

2018/06/26 03:23 編集

ご教授ありがとうございます。おっしゃる通りに classificationに関してなんとか強引に理解できたような気がしますが、 detectionの場合はどうやって『位置情報』を取得してくれるのでしょうか。 CNNでは通常mapが繰り返しdim縮小されていって、最終的にかなり小さいdimしかないのに、NNはどうやってobjectの元の存在位置の座標が分かるのでしょうか。