画像認識について学習中です。
https://qiita.com/kenichiro-yamato/items/60affeb7ca9f67c87a17
こちらのサイトでConv2Dについて調べていたのですが、
・入力画像は 25 x 25 である。
・フィルタ(カーネル)は 3 x 3 である。
・ストライドは 4 である。
質問1:このような条件のようにフィルタよりストライドの方を大きくすることは可能なのでしょうか?
質問2:可能な場合飛ばされるマスは無視されるということでしょうか?
質問3:サイトを読んだ限りではフィルタを何*何にするか決めて、ストライドを決める、そこからそのフィルタを何枚使うか計算するという流れに感じました。枚数が多いと縦横の画像サイズからはみ出たり少ないと画像の端っこまで到達しなかったりして問題が起こりそうなのですがどうでしょうか?
例えば
・入力画像は 25 x 25 である。
・フィルタ(カーネル)を 3 x 3 に決める。
・ストライドを 2 に決める。
すると必然的にフィルターを11*11枚使うことになる。という考えであっているのでしょうか?
こう考えた理由は1010枚だとスライドした時に画像の端まで行かないし、1212だと画像サイズを超えてしまうと思ったからです。
僕の誤解や知識が及んでいないところがあればその点も踏まえてご指摘お願いします。
なぜこの質問をしたのかというと上記のサイトに「フィルタ数は、「16・32・64・128・256・512枚」などが使われる傾向にある」とありますが、僕の「端まで行かない」とか「超えてしまう」という考えとぶつかってしまい、多分僕の捉え方が間違っているんだろうなと思ったからです。
質問の意図が伝わりづらかったら大変手間だとは思いますが、コメントしていただけると嬉しいです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。