PyTorchで構築したCNNにおける推論の結果がすべて同じになる

2022/11/04 13:19 編集

> 学習終了後にいくつかのデータを与えても同じ出力しか返ってきません．学習に使った画像を入力したら、どうなるのでしょうか？もしそれでも出力が画像によらず同じなら、学習前のネットワークにも入力してみてください > 損失関数のhistoryを見る限り学習が進んでいるようにみえるネットワークが学習前/後かに無関係に、学習に使った画像でも常に同じ値が出力されるのなら、historyと矛盾するので、評価の計算方法がおかしいのかもしれませんネットワークが学習前/後かで結果は変わるけど、学習後のネットワークだと学習に使った画像でも常に同じ値が出力されるのなら、学習がうまくいってないのかもでも、それだとhistoryで良くならないような (学習後ネットワークに学習画像を入力した時の出力から計算したlossと、historyの最終のlossは、だいたい一致するか？)

2022/11/04 13:49

jbpb0さんありがとうございます．学習後に，学習で使った画像を入力したところ同様に同じ結果が返ってきました．また学習前にモデルに入れても同じ出力が返ってきました．（それぞれ別の値）なので学習で何かしらパラメータは変化している一方で，どこかでリセット（パラメータが全部０など？）されてしまっているのかなと思います． >ネットワークが学習前/後かに無関係に、学習に使った画像でも常に同じ値が出力されるのなら、historyと矛盾するので、評価の計算方法がおかしいのかもしれませんそこで評価関数をPyTorchの組み込みの関数L1Loss()で試してみても学習が進んでいるように見えました．．． >学習後ネットワークに学習画像を入力した時の出力から計算したlossと、historyの最終のlossは、だいたい一致するか？全く同じ値になりました．．

2022/11/04 14:06

self.conv6とself.conv8は重み共有しまくっていますが，ここをちゃんと分けたら治る，わけではないのですか？特にself.conv8を何度も通してしまったがため，このレイヤで同じ入出力に収束した説が考えられます．

2022/11/04 14:12

ps_aux_grepさんありがとうございます．盲点でした．． self.conv8_1，self.conv8_2...などと再定義し直してもう一度試してみましたが，結果は変わりませんでした．しかし，どちらにせよ重みを共有しまくっているのは初歩的な大問題でした．．ありがとうございます．

2022/11/04 14:29

> 学習前にモデルに入れても同じ出力が返ってきました．学習する前からそうなら、変な学習がされてるのではなく、画像の違いが消えてしまうような処理が(学習とは無関係に)どこかでされてる、ってことですかね

2022/11/04 15:38

もしかしたらそうかもしれません教師データのところから見直してみる必要があるかもですね．．ありがとうございます．

2022/11/04 16:40

conv8に関して直したとおっしゃってましたが，conv6も直したってことで間違いないですか？

2022/11/05 06:54

はい，直しました．そののち，構造をCNNでなく全結合の単純な構造で試したところすべての重みが0になっていて，最後のバイアスのみ値が更新されているようでした．．なので構造に問題があるわけではなさそうです．．．

2022/11/05 08:03

conv6,8がやはり怪しいと思いこれらの層を消しconv4までで試してみたところ正常に学習が進みました（予測の結果がデータによって変わりました．） ps_aux_grepさんがおっしゃっていたようにconv6で収束してしまっていたようです．しかしconv6_1,conv_2..と変更しても未だに収束してしまうのはなぜなのでしょうか．．．

2022/11/05 11:12 編集

> conv4までで試してみたところ正常に学習が進みました（予測の結果がデータによって変わりました．）のコードと、 > conv6_1,conv_2..と変更しても未だに収束してしまうの(直したはずなのにうまくいかない)コードを、質問を編集して追記してください (全部じゃなくて、変更点のみでもいいです) 上記の「直したはずなのにうまくいかないコード」で学習前の状態では、別の入力データでの出力は同じ/違うのどちらでしょうか？ > 構造をCNNでなく全結合の単純な構造で試したのコードでは、別の入力データでの出力は同じ/違うのどちらでしょうか？ (学習前/後のそれぞれで)

2022/11/05 10:55

PyTorchのMaxPooling2Dの動作は存じ上げませんが，もしかしたらMaxPool2Dも1つしか用意していないのが悪い，とかもあり得そうですね．対応するMaxUnPool2Dのために保持する情報とかもあったりするので，ここも使うだけ用意するなどやってみる必要がありそうですね．

2022/11/07 00:37

> 重みやバイアスを見たところ最後のバイアスのみ値が変化し，それ以外の重みやバイアスは全て０となっていました．おそらく学習の過程でパラメータの更新がうまく行っていないのだと予測してはいます学習の問題なら、学習前のネットワークでは問題は起きないと思うのですが、 > 学習前にモデルに入れても同じ出力が返ってきました．ですよねネットワークを定義しただけで学習してない状態では、重みやバイアスはランダムに初期化されてると思うのですが、実際はそうなってないのでしょうか？

2022/11/07 00:46

> 構造を２層の全結合層からなる簡単なNNに変更したり，の状態では、cnnではないのだから、 > self.conv6とself.conv8は重み共有しまくっていますとか、 > MaxPool2Dも1つしか用意していないとかは、(全結合層だけなので)その時には発生してないはずですが、その場合でも、 > 出力値はすべてのデータに対して同じになってしまいました．となるなら、 > conv4までで試してみたところ正常に学習が進みました（予測の結果がデータによって変わりました．）となるのが不思議です cnnなら「conv4まで」で大丈夫だけど、cnnではない「２層の全結合層だけ」だとダメ？

2022/11/07 03:09

> cnnなら「conv4まで」で大丈夫だけど、cnnではない「２層の全結合層だけ」だとダメ？まさにこの通りで何が原因なのか全く分からなくなってしまいました．他のデータセットで試した（以前kerasで開発していた時のデータセット）際にも同じようにうまく行きませんでした．

2022/11/07 03:26

入力画像のレンジが広すぎる，というのはどうでしょうか画像の前処理が不明なので推測で話しますが，もし0~255の値域の画像データXならカーネルの感度が高くなって異常な学習になるかと思いました． np.reshape前後で X = X / 127.5 - 1 とすると値域を[-1, 1]にできます．ネットワークサイズ増大で予測値が収束してしまう，という観点からだと，VGG16が大きすぎて，メモリの範囲外参照による0値取得が生じ，計算不可で予測値が同じになった説とかも考えられます．使われているGPUのメモリサイズの確認をお願いします．いずれにせよ，コードからはわからない別要因の可能性が高くなってきました

2022/11/07 04:37

画像データは/255.0で[0,1]の値域を持つグレースケール画像です． GPUはGeForce RTX3090でメモリサイズは24GBです．そうですね．．１から全部戻って確認してみます．．

2022/11/07 04:57 編集

現在の質問のコードで、 X = np.load(DATA_DIR + "input.npy") X = np.reshape(X, (X.shape[0], 1, PIXEL, PIXEL)) ↓ 変更 X = np.random.rand(10, 1, PIXEL, PIXEL) y = np.load(DATA_DIR + "output.npy") y = np.reshape(y, (y.shape[0], 1)) ↓ 変更 y = np.random.rand(10, 1) としてデータをでっち上げて、学習前の状態でどうなるのか確認しようと、 > # Compile for epoch in range(EPOCH): のforループを全部削除して、google colabでgpu有りで実行したら、 > RuntimeError Traceback (most recent call last) <ipython-input-4-dd543cf6ed01> in <module> 129 # Model Check 130 model = VGG19(1).to(device) --> 131 summary(model, input_size=(1, 224, 224)) 132 133 # Loss & Optimizer 2 frames <ipython-input-4-dd543cf6ed01> in forward(self, x) 111 x = self.max_pool_5(x) 112 --> 113 x = x.view(-1, 56*56*128) 114 x = F.relu(self.fc1(x)) 115 x = F.relu(self.fc2(x)) RuntimeError: shape '[-1, 401408]' is invalid for input of size 50176 というエラーになりますデータの作り方が間違えてますか？質問者さんの環境では、現在の質問のコードで、上記のエラーは出ないのですよね？

2022/11/07 04:51 編集

すみません． x = x.view(-1, 56*56*128) を x = x.view(-1, 7*7*512) に， self.fc1 = nn.Linear(56*56*128, 1000) を self.fc1 = nn.Linear(7*7*512, 1000) に変更していただきますと動くと思います．

2022/11/07 07:27 編集

質問のコードが動いたので、 X = np.random.rand(10, 1, PIXEL, PIXEL) X[0] = np.zeros((1, PIXEL, PIXEL)) X[0, 0, :, :int(PIXEL/2)] = 1 X[1] = np.zeros((1, PIXEL, PIXEL)) X[1, 0, :int(PIXEL/2), :] = 1 として最初の2枚を特徴的な画像にして、それと3枚目(乱数)が、学習前の各層の出力でどうなるのかを、 https://pystyle.info/pytorch-extract-intermediate-layer-output/ のコードを使って目視比較確認しました以下、上記Webページのコードの引用部分を説明します「In [4]:」はそのまま「In [5]:」は下記を変更 target_module = model.features[3] ↓ 変更 (「conv1」のところをいろいろ変える) target_module = model.conv1 features = extract(target_module, inputs) ↓ 変更 features = extract(target_module, X.to(device)) 「In [6]:」は下記を変更 (3枚の入力画像の、先頭の4つのフィルタでの出力結果を目視比較) img = feature_to_img(features[0][:16]) img ↓ 変更 img = feature_to_img(features[0][:4]) display(img) img = feature_to_img(features[1][:4]) display(img) img = feature_to_img(features[2][:4]) display(img) 実行結果ですが、「target_module = model.conv1」では3枚の違いがはっきりと分かりますが、「target_module = model.conv6_3」では違いが分かりにくくなり、「target_module = model.conv7」では目視では違いがほとんど分かりません(よーく見たらうっすら分かる) 「target_module = model.conv8_1」ではよーく見ても違いが分かりません厳密な数値比較ではなく目視比較レベルですが、ネットワークの後段の層では、かなり違う入力画像でも層の出力が同じになってます上記は全て、学習前の、重みやバイアスはランダムに初期化されてる状態です念の為に、下記を実行して確認したら、ランダムな数値が入ってました for param in model.parameters(): print(param)

2022/11/07 06:39

レイヤごとに値が減少している，という状態なら，コメントアウトしているバッチ正規化を畳み込み直後に挿入するのはどうでしょう．他の実装例を見ると https://blog.paperspace.com/vgg-from-scratch-pytorch/ https://github.com/msyim/VGG16/blob/master/VGG16.py#L42 https://github.com/pytorch/vision/blob/main/torchvision/models/vgg.py#L82 <- これに関してはtorchvisionから利用できるので使ってみると良い．一旦，フルスクラッチVGGをやめて，torchvisionのVGG16 https://pytorch.org/vision/master/models/generated/torchvision.models.vgg16.html を使って異常がないことを確認することで，モデルが悪いのか，学習方法やデータセットが悪いのかなど，原因の切り分けができると思います．

2022/11/07 09:28 編集

> 一旦，フルスクラッチVGGをやめて，torchvisionのVGG16 https://pytorch.org/vision/master/models/generated/torchvision.models.vgg16.html を使って異常がないことを確認する X = np.random.rand(10, 3, PIXEL, PIXEL) として3chのデータをでっち上げて、 model = VGG19(1).to(device) ↓ 変更 model = torchvision.models.vgg19(num_classes=1, init_weights=False).to(device) summary(model, input_size=(1, 224, 224)) ↓ 変更 (こちらも3chに) summary(model, input_size=(3, 224, 224)) として、学習前の状態で推論実行したら、入力によらず同じ出力になりました X = np.random.rand(10, 3, PIXEL, PIXEL) X[0] = np.zeros((3, PIXEL, PIXEL)) X[0, :, :, :int(PIXEL/2)] = 1 X[1] = np.zeros((3, PIXEL, PIXEL)) X[1, :, :int(PIXEL/2), :] = 1 として最初の2枚を特徴的な画像にした場合でも、その2枚も出力は同じでした各層の出力を目視比較すると、「target_module = model.features[20]」までは違いが分かりましたが、「target_module = model.features[21]」以降は違いが分かりませんでした

2022/11/07 07:47

https://datahax.jp/2019/01/03/vgg16_vgg19/ の「学習方法」を見ると、浅いネットワークで学習してから、それを深いネットワークの初期値に使うのだそうです

2022/11/07 08:48

ps_aux_grepさんが教えてくださったurlの https://github.com/msyim/VGG16/blob/master/VGG16.py#L42 で実行してみたところおそらく正常に動き，出力値が一定になる問題が解決しました．やはり構造の定義に問題があったようです．正直まだ原因はわかりきっていませんが，やはり重みパラメータが共有されてしまっていたのかと思います．それと近い理由で単純な全結合層でもパラメータがすべて０になるという減少が発生していたようです．みなさまありがとうございました．

2022/11/07 09:29 編集

> https://github.com/msyim/VGG16/blob/master/VGG16.py#L42 で実行してみたところおそらく正常に動き，出力値が一定になる問題が解決しました． vgg19じゃなくてvgg16だと大丈夫なのかな？と思って model = torchvision.models.vgg16(num_classes=1, init_weights=False).to(device) でやってみましたが(入力データは3ch)、こちらも学習前のネットワークでの推論はダメで、データによらず同じ出力になりました

2022/11/07 09:56 編集

これではないですか？ https://qiita.com/siruku6/items/5435f4e52c9cfa6cdda4 試しに「init_weights=True」を付けたら、下記のどちらでも大丈夫でした (入力データで出力が変わる) model = torchvision.models.vgg19(num_classes=1, init_weights=True).to(device) model = torchvision.models.vgg16(num_classes=1, init_weights=True).to(device) 質問者さんのコードも、上記Webページで解説されてるような重み初期化のコードを追加したら、うまくいくかもしれません【追記】この質問のコードの、「class VGG19(nn.Module):」の「def __init__(self, input_image_channels):」の最後に、 https://github.com/pytorch/vision/blob/main/torchvision/models/vgg.py#L53-L63 の53〜63行目の「for m in self.modules():」のforループ for m in self.modules(): if isinstance(m, nn.Conv2d): nn.init.kaiming_normal_(m.weight, mode="fan_out", nonlinearity="relu") if m.bias is not None: nn.init.constant_(m.bias, 0) elif isinstance(m, nn.BatchNorm2d): nn.init.constant_(m.weight, 1) nn.init.constant_(m.bias, 0) elif isinstance(m, nn.Linear): nn.init.normal_(m.weight, 0, 0.01) nn.init.constant_(m.bias, 0) を、インデントだけ合わせてそのまま追加して、学習前のネットワークで推論させたら、入力データで出力が変わりましたそこからスタートしたら、学習もできるかも

2022/11/08 01:26

皆様ありがとうございます．皆様の意見および下記URLを参考に，初期値と構造を見直したところ無事エラーなく動きました！精度に課題はあるものの推論もできていそうです．ありがとうございます． https://pystyle.info/pytorch-vgg/#outline__2

2022/11/22 07:48 編集

ニューラルネットがディープな場合は、重みの初期値が不適切だとうまく学習できない(場合がある)ということは、知識はありましたが、今回の質問で確かにそうなんだなと実感しました