オートエンコーダのエンコーダ層の出力について

ノイズ除去オートエンコーダを実装する

Pytorchでノイズ除去オートエンコーダを実装する
こちらのサイトのコードを参考にしました。
https://debuggercafe.com/autoencoder-neural-network-application-to-image-denoising/

発生している問題・エラーメッセージ

Fashion MNIST を用いているので28×28ピクセル入力が1になっています。
以下のコードにもあるようにエンコーダー層の最初の層ですが、出力が64となっています。何故64になるのかわかりません。

該当のソースコード

pytorch
1
2self.enc1 = nn.Conv2d(1, 64, kernel_size=3, padding=1)
3self.enc2 = nn.Conv2d(64, 32, kernel_size=3, padding=1)
4self.enc3 = nn.Conv2d(32, 16, kernel_size=3, padding=1)
5self.enc4 = nn.Conv2d(16, 8, kernel_size=3, padding=1)
6self.pool = nn.MaxPool2d(2, 2)

試したこと

64以外の数字でもうまくいく。32や16など。

補足情報（FW/ツールのバージョンなど）

行動規範の内容に同意します

回答1件

ベストアンサー

Fashion MNIST を用いているので28×28ピクセル入力が1になっています。

以下のコードにもあるようにエンコーダー層の最初の層ですが、出力が64となっています。

は、
参考
で
H=W=28
K=1
M=64
の場合です

何故64になるのかわかりません。

「なる」のではありません
この数字は、自動的に決まるものではありません
畳み込みフィルタのサイズ(3x3とか5x5とか)をいくつにするのかや、隠れ層の層数をいくつにするのか等と同様に、ニューラルネットを設計する際に決める数字です

投稿2021/07/18 08:25

jbpb0

総合スコア7653

ttt.k

2021/07/18 11:43

回答ありがとうございます！

ttt.k

2021/08/01 10:15

次元を減らしていく際に2の乗数になっていますが何故でしょうか？よろしければご回答宜しくお願い致します。例えば上の例ですと、8次元まで圧縮するのでそこから4層分考えると8→16→32→64となり64が決まるという解釈でしょうか？

jbpb0

2021/08/02 05:03 編集

> 2の乗数になっていますが何故でしょうか？単なる慣習だと思います > 8→16→32→64となり64が決まる質問のコードでは 64, 32, 16, 8 と半分ずつにしてますが、そうしないといけないわけではないです https://qiita.com/cvusk/items/019c254db883957b3050 に三つのニューラルネットがありますので、そちらを見てください「Conv2D(」の次の数値です・一つ目は、質問のコードと同じで半分ずつ・二つ目は32, 32で各層同じ・三つ目は、質問のコードの逆で2倍ずつ

ttt.k

2021/08/03 05:08

回答ありがとうございます。頭を整理して考えてみます。ありがとうございました。

行動規範の内容に同意します