ConvNetの重み更新エラー

ゼロから作るDeeplearningにあるim2colを用いて,CNNを実装しているのですが, うまく行かない部分があり質問しました。
CNNは, 入力(チャネル数1, 28×28)→畳み込み層1(フィルタ9×9, ストライド1)→畳み込み層2(フィルタ9×9, ストライド2)→全結合層
各畳み込み層はフィルタ数5枚を想定しています。

入力x[6,1,28,28]は, MNISTを想定して縦横28×28, チャネル数1の白黒画像を6枚用意します。
畳み込み層1では, 9×9のフィルタ5枚をストライド1, パディング0で畳み込み, 5×20×20の特徴マップを作製します。
畳み込み層2では, 9×9のフィルタ5枚をストライド2, パディング0で畳み込み, 5×6×6の特徴マップを作製します。

最期に全結合層での出力を行い, 逆伝搬により重みの修正を行います。

逆伝搬のプログラムを実行すると重みの更新部分でエラーが出てしまいます。
重みフィルタのサイズが誤っているのでしょうか？

下記、プログラムで誤りのある箇所があれば教えていただきたいです。
よろしくお願いします。

python
1import numpy as np
2
3def im2col(input_data, filter_h, filter_w, stride_h=1, stride_w=1, pad_h=0, pad_w=0):
4
5    N, C, H, W = input_data.shape
6    out_h = (H + 2*pad_h - filter_h)//stride_h + 1
7    out_w = (W + 2*pad_w - filter_w)//stride_w + 1
8
9    img = np.pad(input_data, [(0,0), (0,0), (pad_h, pad_h), (pad_w, pad_w)], 'constant')
10    col = np.zeros((N, C, filter_h, filter_w, out_h, out_w))
11
12    for y in range(filter_h):
13        y_max = y + stride_h*out_h
14        for x in range(filter_w):
15            x_max = x + stride_w*out_w
16            col[:, :, y, x, :, :] = img[:, :, y:y_max:stride_h, x:x_max:stride_w]
17
18    col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N*out_h*out_w, -1)
19    return col, out_h, out_w 
20
21def col2im(col, input_shape, filter_h, filter_w, stride=1, pad=0):
22    N, C, H, W = input_shape
23    out_h = (H + 2*pad - filter_h)//stride + 1
24    out_w = (W + 2*pad - filter_w)//stride + 1
25    col = col.reshape(N, out_h, out_w, C, filter_h, filter_w).transpose(0, 3, 4, 5, 1, 2)
26
27    img = np.zeros((N, C, H + 2*pad + stride - 1, W + 2*pad + stride - 1))
28    for y in range(filter_h):
29        y_max = y + stride*out_h
30        for x in range(filter_w):
31            x_max = x + stride*out_w
32            img[:, :, y:y_max:stride, x:x_max:stride] += col[:, :, y, x, :, :]
33
34    return img[:, :, pad:H + pad, pad:W + pad]
35
36#入力
37x = np.arange(6*1*28*28).reshape(6,1,28,28)
38
39#フィルタ
40w = np.arange(5*1*9*9).reshape(5,1,9,9)
41
42#入力2次元化
43col_x,out_h,out_w = im2col(x,9,9,1,1,0,0)#入力, フィルタサイズ9, ストライド1
44
45#1層目フィルタ2次元化
46col_w = w.reshape(5,-1).T
47#1層目畳み込み計算
48conv1_col = np.dot(col_x, col_w)
49
50#1層目畳み込み層変換
51conv1 = conv1_col.reshape(x.shape[0], out_h, out_w, -1).transpose(0, 3, 2, 1)
52
53#2層目フィルタ
54w2 = np.arange(5*5*9*9).reshape(5,5,9,9)
55
56#2層目フィルタ2次元化
57col_w2 = w2.reshape(5,-1).T
58
59#2層目畳み込み計算(2次元)
60input_col,out_h,out_w = im2col(conv1,9,9,2,2,0,0)#cov1, フィルタサイズ9,ストライド2
61conv2_col = np.dot(input_col, col_w2)
62conv2 = conv2_col.reshape(conv1.shape[0], out_h, out_w, -1).transpose(0, 3, 2, 1)
63
64#全結合層重み
65w_affine = np.random.rand(6*6*5,10)
66
67#全結合層出力
68z = conv2.reshape(conv2.shape[0],-1)
69y = np.dot(z,w_affine)
70
71t = np.zeros((6,10))
72#教師信号
73for i in range(6):
74    t[i,i]=1
75print(t)
76
77#全結合層誤差
78Error2 = (y-t)
79
80#畳み込み層2誤差(1次元)
81Error1 = np.dot(Error2, w_affine.T)
82
83#畳み込み層誤差変換
84dout2 = Error1.reshape(6,5,6,6)
85dout2 = dout2.transpose(0,2,3,1).reshape(-1,5)
86
87#w2更新
88dw2 = np.dot(input_col.T,dout2)
89dw2 = dw2.transpose(1,0).reshape(5,5,9,9)
90print(dw2.shape)
91
92#畳み込み層1誤差
93dout1_col = np.dot(dout2,col_w2.T)
94dout1 = col2im(dout1_col,conv1.shape,9,9,2,0)
95dout1 = dout1.transpose(0,2,3,1).reshape(-1,5)
96
97#w1更新
98dw1 = np.dot(col_x.T,dout1)
99dw1 = dw1.transpose(1,0).reshape(5,1,9,9)
100

行動規範の内容に同意します

回答1件

ベストアンサー

dw2を求める部分ですが、

#w2更新
dw2 = np.dot(input_col.T,dout2)
dw2 = dw2.transpose(1,0).reshape(5,5,9,9)

ではないでしょうか？
同様にdw1も

#w1更新
dw1 = np.dot(col_x.T,dout1)
dw1 = dw1.transpose(1,0).reshape(5,1,9,9)

になるかと思います。
エラー部分の各変数の形状を一度確認されるのが良いかと思います。

投稿2021/01/01 15:38

segavvy

総合スコア958

redcatML

2021/01/02 12:34

回答ありがとうございます。指摘の通りでした。プログラムを修正したところエラーは無くなりました。しかしながら、エラーは出なくなりましたが正しく学習が行えていないようです。プログラムのミスがあれば教えてください。バイアスや学習率や活性化関数も線形なのでその辺りの調整が必要なのでしょうが、そもそも正しく動いていないようです。

redcatML

2021/01/02 12:55

回答をいただきさらに質問は失礼だと思い、ベストアンサーにさせていただきました。もう少し考えみます。ありがとうございました。

segavvy

2021/01/03 13:33

いえいえ、お役に立てたようでしたらよかったです。教師信号がOne-hotベクトルなので、活性化関数はSoftmaxなどを使って0〜1の範囲にしないと適切な誤差が算出できないのではないかと思います。また、提示されているコードは勾配（dw1など）を計算されていますが、それを使って実際の重み（wなど）を更新する実装がないので、省略されていないのであればその実装も必要です。「ゼロから作るDeepLearning」が今は手元にないのでピンポイントでの説明箇所を示せませんが、7章が該当するかと思います。もし良かったら私が1年ほど前に勉強した際のメモをQiitaに投稿しているので、本と合わせて、こちら↓も参照してみてください。「ゼロから作るDeep Learningで素人がつまずいたことメモ: まとめ」 https://qiita.com/segavvy/items/4e8c36cac9c6f3543ffd

行動規範の内容に同意します