kerasのConv2Dのカーネルとストライドの関係について知りたい

画像認識について学習中です。

https://qiita.com/kenichiro-yamato/items/60affeb7ca9f67c87a17

こちらのサイトでConv2Dについて調べていたのですが、

・入力画像は 25 x 25 である。
・フィルタ（カーネル）は 3 x 3 である。
・ストライドは 4 である。

質問1:このような条件のようにフィルタよりストライドの方を大きくすることは可能なのでしょうか？

質問2:可能な場合飛ばされるマスは無視されるということでしょうか？

質問3:サイトを読んだ限りではフィルタを何*何にするか決めて、ストライドを決める、そこからそのフィルタを何枚使うか計算するという流れに感じました。枚数が多いと縦横の画像サイズからはみ出たり少ないと画像の端っこまで到達しなかったりして問題が起こりそうなのですがどうでしょうか？

例えば

・入力画像は 25 x 25 である。
・フィルタ（カーネル）を 3 x 3 に決める。
・ストライドを 2 に決める。

すると必然的にフィルターを11*11枚使うことになる。という考えであっているのでしょうか？

こう考えた理由は1010枚だとスライドした時に画像の端まで行かないし、1212だと画像サイズを超えてしまうと思ったからです。

僕の誤解や知識が及んでいないところがあればその点も踏まえてご指摘お願いします。

なぜこの質問をしたのかというと上記のサイトに「フィルタ数は、「16・32・64・128・256・512枚」などが使われる傾向にある」とありますが、僕の「端まで行かない」とか「超えてしまう」という考えとぶつかってしまい、多分僕の捉え方が間違っているんだろうなと思ったからです。

質問の意図が伝わりづらかったら大変手間だとは思いますが、コメントしていただけると嬉しいです。

行動規範の内容に同意します

回答1件

ベストアンサー

質問1: Yesです。
質問2: Yesです。
質問3: フィルタ数という言葉の定義が、質問者様とこのサイトでずれているようです。このサイトでの使い方は、チャネル数または次元数という意味合い（=フィルタを通した後の特徴マップの枚数）であり、画像を埋め尽くすフィルタの枚数（=フィルタを通した後の特徴マップの大きさ）ではありません。両者は基本的には無関係に選定できますが、一般的に、特徴マップの枚数 ✕ 特徴マップの大きさが大きく変動しないように、枚数を2のべき乗から選択することが多いようです。

以下のコードで、パラメータとして予め与える16が特徴マップの枚数、kernelとstridesに基づき計算される12✕12が特徴マップの大きさであり、両者の積である12✕12✕16が、Conv2Dの出力になっています。特徴マップの枚数(16)はkernelとstridesには影響されません。

Python
1from tensorflow.keras import Sequential
2from tensorflow.keras.layers import Conv2D
3model = Sequential([
4    Conv2D(16, kernel_size=3, strides=2, input_shape=(25, 25, 3)),
5])
6print(model.summary())
7#_________________________________________________________________
8#Layer (type)                 Output Shape              Param #   
9#=================================================================
10#conv2d_27 (Conv2D)           (None, 12, 12, 16)        448       
11#=================================================================
12#Total params: 448
13#Trainable params: 448
14#Non-trainable params: 0
15#_________________________________________________________________