Resnet50の制度があがらない

2022/11/08 08:32 編集

論文では「We start with a learning rate of 0.1, divide it by 10 at 32k and 48k iterations, and terminate training at 64k iterations」と言っていることから学習率0.1スタートの32k iterationで0.01，48k iterationで0.001にしてますが，そちらのコードではlr=0.015のままですね，最終的な学習率と比較して15倍もの大きさの学習率を利用してしまっているようです．ネットワークの学習が停滞した場合に有効なのは学習率を低下させることですが，それを実現できていないようです．また， data augmentationも論文ではやったと言っていますので，これも実現すると良いでしょう．さらに，「adopt the weight initialization in [13]」とあることから，重み初期値もHeの初期値を利用したみたいなので，これも反映すると学習速度の上昇につながると思います．

2022/11/08 12:06

lr=0.001にしてみました。data augmentationとはどのような処理でしょうか。

2022/11/08 12:16

lr=0.001にしてみたところ精度も落ち、lossも増えてしまいました。

2022/11/08 16:08 編集

Data Augmentationに関して論文では We follow the simple data augmentation in [24] for training: 4 pixels are padded on each side, and a 32×32 crop is randomly sampled from the padded image or its horizontal flip. と言っているので，4pixelを上下左右paddingして32x32の領域をランダムに黒にしてしまったり，左右反転したりすることで，ネットワークに与えるデータを増やす操作をやっているのです． https://pytorch.org/vision/stable/transforms.html torchではPadとRandomCropとRandomHorizontalFlipが使えますね． > lr=0.001にしてみたところ精度も落ち、lossも増えてしまいました。論文通り，学習率を「徐々に」減少させましたか？初っ端から0.001にすると学習速度が遅いのも相まって50epoch目の精度が低くなるのは当然のことと思います． CIFAR10は50kの教師データと10kの検証データであるから，バッチサイズ256である現状から計算するに，32k iterationはおよそ32k / (50k / 256) = 16epochと同義ですね，同様に48k iterationが25 epoch目になるので，これを境界にして学習率を1/10に減少させるようにしてください．論文のFigure 6を見て分かる通り，32k iterationで急激に学習が進むのがわかると思います．学習率0.1で学習が停滞していた状態で学習率を0.01に減少させることで，学習が進むようになったと捉えることができます．また48 iterationのときに学習率0.001を減少させても効果が少ないのがわかると思います．この学習率0.001を序盤からやっても全然学習進まないのは，まぁそれはそうとしか言えないです． https://take-tech-engineer.com/pytorch-lr-scheduler/ Learning Rate Schedulerの利用を推奨します．

2022/11/09 03:20

optimizer = torch.optim.SGD(net.parameters(),lr=0.1,momentum=0.9,weight_decay=5e-4) scheduler = torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones=[16,25], gamma=0.1) のように変更しました。ですが最初のlrを0.1に設定すると、lossの値がでなくなり、val_accもずっと100%になってしまいます。

2022/11/09 11:09 編集

https://github.com/kuangliu/pytorch-cifar の「main.py」の下記を変更して、google colabで実行してみました net = SimpleDLA() ↓ 変更 net = ResNet50() 200エポック終わった時のテストデータでの精度は95%くらいでした上記githubのコードを分析してみたら、いかがでしょうか？

2022/11/09 11:52

今回はモデルを書くことを頑張ってみたので、事前学習済のモデルを使わないでやりたいです。前処理などNormalizeの部分はこちらのコードを参考にさせていただきます。ですがやはり学習率の部分が0.1だとおかしくなってしまいます。 Epoch[1/50], loss: nan, acc: 0.09996, val_loss: nan, val_acc: 0.10000 このようにlossがでなく精度もおかしくなってしまいます。

2022/11/09 13:31 編集

> 事前学習済のモデルを使わないでやりたいが、私が紹介したgithubのコードのことでしたら、私が実行した時には事前学習の重みファイルをダウンロードしてるっぽい動作には気付きませんでしたので、事前学習無しで学習をスタートしたのだと思ってましたが、コードのどこかに重みを読み込んでるところがありました？ちなみに、初回エポックのテストデータでの精度は20%くらいでした

2022/11/09 13:31

わかりやすくepochで示しましたが，1 iterationは1回のoptimize.update()が相当しますので，そのまま32kと48kを指定したスケジューラにしてください．最初のlrが0.1で不適であれば，0.05スタートか0.01とかでも良いと思います．また，初期値はちゃんとHeの初期値を利用しているのでしょうか．

2022/11/10 03:36

jbpb0さん。このgithubのコードにはconvの記述などがなかったので勝手に事前学習済のモデルかと勘違いしてました。 ps_aux_grepさん。 Heの初期位置とはなんでしょうか。

2022/11/10 03:38

>わかりやすくepochで示しましたが，1 iterationは1回のoptimize.update()が相当しますので，そのまま32kと48kを指定したスケジューラにしてください．というのは scheduler = torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones=[32,48], gamma=0.1) ということでしょうか。

2022/11/10 03:47

> Heの初期値とは一番最初にコメントで申し上げた論文中の「adopt the weight initialization in [13]」の文言のことです．論文中のReferencesの13番目にあるHe氏の論文を見るとわかるはずです．内容は，重み初期値の分散を，2割ることのユニット数にすると学習がうまくいき精度向上に繋がる．というものです．TorchではデフォルトでLeCunの初期値が使われているので一致しません． > スケジューラに関して scheduler = torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones=[32000,48000], gamma=0.1) にしてください．kは1000倍を意味します．

2022/11/10 05:31 編集

> このgithubのコードにはconvの記述などがなかったネットワークの定義は https://github.com/kuangliu/pytorch-cifar/blob/master/models/resnet.py にあり、 https://github.com/kuangliu/pytorch-cifar/blob/master/main.py の「from models import *」で読み込まれてます複数のファイルに分かれてはいますが、基本的な構成はこの質問のコードと似てるように見えたので、差異がどこにあるのか分析したら、精度が上がらない原因が分かるかも、と思って紹介しました

2022/11/10 05:45

ps_aux_grepさん重み初期値の分散を，2割ることのユニット数にすると学習がうまくいき精度向上に繋がる．というものです．TorchではデフォルトでLeCunの初期値が使われているので一致しません．ってどの部分でしょうか。 jbpb0さん。ありがとうございます。比較してみます。

2022/11/10 06:29

初期値の設定は、私が紹介したコードでは、 https://github.com/kuangliu/pytorch-cifar/blob/master/utils.py の29行目からの「def init_params(net):」でやってるようです 33行目の「init.kaiming_normal(...」は、 https://pystyle.info/pytorch-parameters-initialization/#outline__12 の「12. torch.nn.init.kaimingnormal – He の方法 (正規分布)」を見てください

2022/11/10 06:49

ありがとうございます。 32k iterationはおよそ32k / (50k / 256) = 16epochと同義ですね，同様に48k iterationが25 epoch目ここの計算が合わないのですが、詳しく教えていただきたいです。

2022/11/10 07:45

> 32k iterationはおよそ32k / (50k / 256) = 16epochと同義ですね，約160エポックだと思う

2022/11/10 07:55

やはりそうですよね。ありがとうございます。

2022/11/10 07:56

scheduler = torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones=[A,B], gamma=0.1) AとBの部分にはepoch数を入れると思ってたのですが、違いますか？

2022/11/10 22:41

> AとBの部分にはepoch数 https://pytorch.org/docs/stable/generated/torch.optim.lr_scheduler.MultiStepLR.html の「Example」のコメントにはエポックと書かれてます

2022/11/11 15:38

https://github.com/kuangliu/pytorch-cifar/blob/master/utils.py をインポートして初期値の処理をやってみたのですが、 45行目のところで ValueError: not enough values to unpack (expected 2, got 0) というエラーが出てしまいました。引数が足りないのでしょうが、どこの部分かわかりません。

2022/11/11 21:37 編集

https://github.com/kuangliu/pytorch-cifar/blob/master/utils.py の45行目以降は初期値設定とは関係無いものなので、削除したらいいのではないですかね https://qiita.com/siruku6/items/5435f4e52c9cfa6cdda4 も参考になると思います

2022/11/12 08:28

>https://github.com/kuangliu/pytorch-cifar/blob/master/utils.py の45行目以降は初期値設定とは関係無いものなので、削除したらいいのではないですかね utils.pyからはprogress_barをimportしているのにdef progress_barの部分を削除していいんですか？

2022/11/12 09:27

私が上げたコードにどのように初期値設定を組み込めばいいのかわからないです、、、

2022/11/12 09:46

utils.pyのdef_init_paramsの部分をclass ResNetの部分に入れてみました。とりあえず結果待ちます。

2022/11/12 10:02 編集

> utils.pyからはprogress_barをimportしている質問者さんのコードに「progress_bar」が要るのですか？ https://github.com/kuangliu/pytorch-cifar/blob/master/utils.py から、初期値設定の部分だけを質問者さんのコードに取り込もうとしてると思って、 > 45行目以降は初期値設定とは関係無いものなので、削除したらいいと書きましたが、もしかして、 https://github.com/kuangliu/pytorch-cifar/blob/master/main.py をそのまま動かそうとしたら、 > ValueError: not enough values to unpack (expected 2, got 0) というエラーが出るのでしょうか？

2022/11/12 10:21

> utils.pyのdef_init_paramsの部分をclass ResNetの部分に入れてみました。 torchvisionのコードも参考になると思います https://github.com/pytorch/vision/blob/main/torchvision/models/resnet.py の208行目から

2022/11/12 12:40

いやmain.pyは使ってないです。自分がこの質問でのせたコードをちょこちょこ変えて使っています。 utils.pyのdef_init_paramsの部分をclass ResNetの部分に入れてみたら、精度が50%になってしまいました、、

2022/11/13 00:49

> utils.pyのdef_init_paramsの部分をclass ResNetの部分に入れてみたら、精度が50%になってしまいました https://github.com/kuangliu/pytorch-cifar をざっと調べたのですが、「utils.py」の「def init_params(net):」は使われてないっぽいです (見落としがあったらごめんなさい) そこで、今回の質問の精度がイマイチ出ない件の主原因は初期値ではないかも、と思ってgoogle colabで確認してみましたまず、下記を実行 !git clone https://github.com/kuangliu/pytorch-cifar %cd pytorch-cifar 次に、質問のコードで下記を変更してから実行 (最後の行はインデント有り) net = ResNet(block).to(device) ↓ 変更 import torch.backends.cudnn as cudnn from models import * net = ResNet50().to(device) if device == 'cuda': cudnn.benchmark = True 「utils.py」はインポートしてないので、初期値はデフォルトだと思います質問のコードからネットワークを変えただけですが、50エポックで「val_acc」は84%になり、 > 70%ほどで止まってしまいます。より精度が上がりました (1回しか実行してないので、たまたまかもしれないけど) torchvisionのコード https://github.com/pytorch/vision/blob/main/torchvision/models/resnet.py では初期値設定をしてるので、上記で使ったネットワークに初期値設定を追加したら精度がさらに上がるかもしれませんが、試してません

2022/11/13 08:25

ありがとうございます。今回のこの質問の自分のコードを使って、90%ほど出すのはむずかしいでしょうか。

2022/11/13 10:45 編集

https://github.com/kuangliu/pytorch-cifar/blob/master/main.py にさらに近づけるため、私の一つ前のコメントに書いた変更を行った状態から、さらに下記を変更して実行してみました train_dataset = ... test_dataset = ... train_loader = ... test_loader = ... ↓ 変更 https://github.com/kuangliu/pytorch-cifar/blob/master/main.py の30〜50行目のコード (ただし、変数名は質問のコードに合わせる) optimizer = optim.SGD(net.parameters(),lr=0.015,momentum=0.9,weight_decay=5e-4) ↓ 変更 optimizer = optim.SGD(net.parameters(), lr=0.1, momentum=0.9, weight_decay=5e-4) scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=200) num_epochs = 50 ↓ 変更 num_epochs = 200 「for epoch in range(num_epochs):」のループの最後に、インデントを合わせて下記を追加 scheduler.step() 200エポックで「val_acc」は95%になり、 https://github.com/kuangliu/pytorch-cifar/blob/master/main.py を「net = ResNet50()」で実行した時とほぼ同じ結果になりました

2022/11/13 10:52

> 今回のこの質問の自分のコードを使って、90%ほど出すのはむずかしいでしょうか。私の一つ前のコメントで実行した(200エポックで「val_acc」95%)コードから、下記のみ戻して(他は変更した状態のまま)実行してみました from models import * net = ResNet50().to(device) ↓ 変更を戻す net = ResNet(block).to(device) そうすると、エポックが進んでも「val_acc」はずっと10%(0.10000)のまま変わらず、学習ができませんでした

2022/11/14 11:01 編集

私の二つ前のコメントで実行した(200エポックで「val_acc」95%)コードから、下記を変更して実行してみました from models import * net = ResNet50().to(device) ↓ 変更 net = torchvision.models.resnet50(num_classes=10, weights=None).to(device) 200エポックで「val_acc」は90%になり、 from models import * net = ResNet50().to(device) の場合の95%よりもやや劣る結果になりました > 今回のこの質問の自分のコードを使って、90%ほど出すのはむずかしいでしょうか。ネットワークを変えただけで、他は同じで、結果は下記の通りでした・質問のコード：学習できず・torchvision.models.resnet50：200エポックで90% ・https://github.com/kuangliu/pytorch-cifar/blob/master/models/resnet.py ：200エポックで95% ネットワーク構造の差異を調べて、何の違いが学習や精度に効いてるのかを分析したらいかがでしょうか

行動規範の内容に同意します

回答1件

Resnet50にしては精度が上がらなくて困っています。
調査したところ、cifar10を用いた場合、90%ほど精度がでているのですが70%ほどで止まってしまいます。

質問のコードの下記を変更・追加して実行したら、200エポックで「val_acc」は90%になりました

python
1train_dataset = torchvision.datasets.CIFAR10(root='./data/',train=True,transform=transforms.ToTensor(),download=True)
2test_dataset = torchvision.datasets.CIFAR10(root='./data/',train=False,transform=transforms.ToTensor(),download=True)
3train_loader = torch.utils.data.DataLoader(dataset=train_dataset,batch_size=256,shuffle=True,num_workers=2)
4test_loader = torch.utils.data.DataLoader(dataset=test_dataset,batch_size=256,shuffle=False,num_workers=2)

↓ 変更

python
1transform_train = transforms.Compose([
2    transforms.RandomCrop(32, padding=4),
3    transforms.RandomHorizontalFlip(),
4    transforms.ToTensor(),
5    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
6])
7transform_test = transforms.Compose([
8    transforms.ToTensor(),
9    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
10])
11trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform_train)
12testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform_test)
13train_loader = torch.utils.data.DataLoader(trainset, batch_size=128, shuffle=True, num_workers=2)
14test_loader = torch.utils.data.DataLoader(testset, batch_size=100, shuffle=False, num_workers=2)

python
1net = ResNet(block).to(device)

↓ 変更

python
1net = torchvision.models.resnet50(num_classes=10, weights=None).to(device)
2if device == 'cuda':
3  torch.backends.cudnn.benchmark = True

python
1optimizer = optim.SGD(net.parameters(),lr=0.015,momentum=0.9,weight_decay=5e-4)

↓ 変更

python
1optimizer = optim.SGD(net.parameters(), lr=0.1, momentum=0.9, weight_decay=5e-4)
2scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=200)

python
1num_epochs = 50

↓ 変更

python
1num_epochs = 200

　
「for epoch in range(num_epochs):」のループの最後に下記を追加

python
1    scheduler.step()

構造に問題があるのかと思って元論文と比較してみたのですがモデルに問題はなかったです。
また、学習率を変えてみたりもしたのですが、あまり変わりませんでした。

上記の「val_acc」が90%になるコードと、質問のコードとの各相違点が、それぞれどれだけ精度に効いてるか、分析してみるといいと思います

投稿2022/11/22 10:00