畳み込み層の入力チャネルと出力チャネルの違いについて
「ゼロから作るDeep Learning」を読み終えたばかりの初心者です。
以下の論文中に下図のようなモデル図がありました。
中段左のAverage Poolingの出力が9x9x512ですが、その後(だと思うのですが)に通るconv1層の出力が9x9x128となっています。
これは、conv層は1x1x512のフィルターが128個重なっていて、この層を通った結果9x9x128になったという認識であっていますでしょうか?
この分野にもteratailでの質問にも慣れておらず、不自然な点があれば申し訳ありません。
Y. Zhang, "Similarity Image Retrieval Model based on Local Feature Fusion and Deep Metric Learning," 2020 IEEE 5th Information Technology and Mechatronics Engineering Conference (ITOEC), 2020, pp. 563-566, doi: 10.1109/ITOEC49072.2020.9141871.
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/12/17 05:21