convolutionレイヤの、入力データにかけるフィルターの数はなぜ2の冪乗なんですか？

畳み込みニューラルネットワークのconvolutionレイヤについての質問です。
機械学習は勉強し始めたばかりで、すでに完成しているニューラルネットワークのコードを使っているのですが、入力データにかけるフィルターの数は基本的に平方数か2の冪乗(16,32,64あたり)になってます。2の冪乗以外の数字でも一応学習はできたのですが、2の冪乗がデフォルトなのはなぜですか？

meg_

2023/03/08 14:06

> 入力データにかけるフィルターの数は基本的に平方数になってますコード例を教えていただけますか？

tanjiro

2023/03/08 14:20

``` model = models.Sequential() model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(32, 32, 3))) model.add(layers.MaxPooling2D((2, 2))) model.add(layers.Conv2D(64, (3, 3), activation='relu')) model.add(layers.MaxPooling2D((2, 2))) model.add(layers.Conv2D(64, (3, 3), activation='relu')) ``` 引用元はこちらです https://www.tensorflow.org/tutorials/images/cnn?hl=ja すみません訂正します。平方数ではなく、2の冪乗の数になってる理由を知りたいです。

meg_

2023/03/08 14:42

> すみません訂正します。平方数ではなく、2の冪乗の数になってる理由を知りたいです。質問は編集可能ですのでタイトル、質問文を修正しましょう。（この欄は目立ちません。）

meg_

2023/03/08 14:55 編集

（理由は不明ですが）16の倍数が使われることが多いようですね。 Kerasのドキュメントには整数以外の記述はないので決まりはないようです。

tanjiro

2023/03/08 15:05

画像認識用のコードだから2の冪乗になってるんですかね、それとも他になにか理由があるのですかね

meg_

2023/03/08 15:45

シーケンシャルデータでもサンプルコードでは16の倍数が使われることが多いですね。実際に色々変えてみて計算時間が変わるか調べてみるのも良いかもしれませんね。ただ一番重要なのは精度（汎化性能）なので大幅に計算時間が変わるのでなければ特に気にしなくても良いかとは思います。

行動規範の内容に同意します

回答1件

ベストアンサー

ハードウェア的理由が大きいと感じます．
NVIDIA - Convolutional Layers User's Guide

Choose the number of input and output channels to be divisible by 8 (for FP16) or 4 (for TF32) to run efficiently on Tensor Cores. For the first convolutional layer in most CNNs where the input tensor consists of 3-channel images, padding to 4 channels is sufficient if a stride of 2 is used; see Channels In And Out.

Choose parameters (batch size, number of input and output channels) to be divisible by at least 64 and ideally 256 to enable efficient tiling and reduce overhead; see Quantization Effects.

とあるようにハードウェア及びそのAPIであるcuDNNが最適化されています．この参考ページで示される次の画像の横軸CがChannel数(質問で言うところのフィルタ数)である中で，C = 4,8,16のときに実行時間が短縮されています．

2の冪乗で乗除するときにはshift演算で済むのもあるかもしれないですね．