このような論文を実装するときに注意するポイントは、
- レイヤーの種類(畳み込み、全結合、あるいは再帰的)
- 入力、出力の行列の大きさ(画像なら channels * width * height、か、あるいはN次元のベクトルかetc...)
- パラメータの大きさ(畳み込みならカーネルサイズ、パディングの大きさetc...)
を図から見て判断することと、書いてない場合はそれ以外の値から推測することです。
今回は、入力、出力の行列の大きさ、レイヤーの種類はなんとなくわかりますが、畳み込み層のパラメータの中のパディングやストライドの大きさが書いてありません。なので、ここの部分を推論する必要があります。
基本的に畳み込みにおいては、入力と出力の行列の大きさがわかっていれば、カーネルサイズとパディング、ストライドはなんとなくわかります。
inputs (3, 32, 32)
conv_layer(num_filter=6, kernel_size=5, padding=N, stride=M)
outputs(6, 28, 28)
NとMが今わからないところです。paddingとstrideを求めるときは、出力のheightとwidthを見ればわかります。計算方法は、
output = (2 * padding + input - (kernel_size - 1))/ stride
で求められます。
inputが(32, 32)なのに対し、outputが(28, 28)で、kernel_sizeが5なので、この式を用いればpadding=0が求められます。
これをコードに写すと、
model = Sequential()
model.add(Conv2D(6, (5, 5), activation='relu', input_shape=(32, 32, 3)))
となります。この要領で他のパラメータも推論できるので、ぜひやってみてください!わからなかったら追記します。