Resnet18の学習曲線の挙動を理解したい

Question

### 前提
　私は2022年11月から機械学習の勉強を始めた者です。

現在私はキャッサバの葉の画像から病害を判定する画像分類モデルをNeural_Network_Consoleを用いて作成しようとしています。（https://www.kaggle.com/c/cassava-leaf-disease-classification
↑のURLのコンペで使われたものだと思われるんですが違うかもしれません）

neural_network_consoleのYoutubeの解説動画等を参考にして高精度化に努めましたがなかなか成果が出ない状況にあり、自分が試した方法が正しいものなのかを確認したいです。

【与えられたデータセット】
　約2万枚の葉のデータセット。ラベル（病害）は
0: Cassava Bacterial Blight (CBB)
1: Cassava Brown Streak Disease (CBSD)
2: Cassava Green Mottle (CGM)
3: Cassava Mosaic Disease (CMD)
4: Healthy
であり、フォルダ分けされています。画像数はそれぞれ
0:931枚
1:1876枚
2:2045枚
3:11279枚
4:2209枚
です。葉っぱ以外しか映っていない画像や作業員がピースしているだけなどの画像も含まれてます。

【データセットに対して行ったこと】
　与えられたデータセットのデータクレンジング（葉の模様が確認できる画像以外を除去）を行い、各ラベルは
0:913枚
1:1767枚
2:2001枚
3:11040枚
4:2094枚
となりました。ここからテスト用に各ラベル100枚ずつ別フォルダに保存しました。
　残りの画像にAugmentor(https://hacknote.jp/archives/40200/)
を用いて水増しした、①各ラベル5000枚のデータセットと②各ラベル11000枚のデータセットを作成しました。なお画像サイズは224*224としました。

【学習モデルの検討】
　neural_network_consoleのYoutubeにて紹介されてResNet18を使おうと思い、https://support.dl.sony.com/wp-content/uploads/sites/2/2020/01/17052647/starter_guide_Image_classification.pdf
を参考にして、neural_network_console内のResnet18のサンプルモデルに①と②のデータセットを用いて学習を行いました。学習モデルと①と②の学習曲線、①と②の評価における混合行列を以下に示します。
![学習モデル](https://ddjkaamml8q8x.cloudfront.net/questions/2022-11-18/88922928-76d9-47f4-b023-9aa724c9b859.png)
↑学習モデル（サンプルにあったResnet18）
![①訓練画像各5000枚の学習曲線](https://ddjkaamml8q8x.cloudfront.net/questions/2022-11-18/7c1ade44-1ea9-474c-93da-19675118f330.png)
↑①訓練画像各5000枚の学習曲線
![②訓練画像各11000枚の学習曲線](https://ddjkaamml8q8x.cloudfront.net/questions/2022-11-18/0e1af10a-6c15-46ca-8fad-fc4129ecb0e3.png)
↑②訓練画像各11000枚の学習曲線
![①訓練画像各5000枚の混合行列](https://ddjkaamml8q8x.cloudfront.net/questions/2022-11-18/4bf000ed-39a6-4adc-92e1-551f80530df1.png)
↑①訓練画像各5000枚の混合行列
![②訓練画像各11000枚の混合行列](https://ddjkaamml8q8x.cloudfront.net/questions/2022-11-18/17cf84fd-b1cd-41af-9bf3-70fded8e2a6d.png)
↑②訓練画像各11000枚の混合行列

### 質問したいこと
(1)上記に示した学習曲線ではTRAIN ERRORが表示されていないが、これは正常な動作なのか

(2)上記に示した混合行列を見ると、各ラベルの画像数が少ないほうがaccuracyが高いことがわかる。訓練画像データを増やしても、必ずしも精度が上がる訳ではないのか。またその場合、訓練画像データの水増しはどの程度まで行うのが効果的なのか。（元画像1枚につき〇枚の水増しを行うと良い等）

(3)今回のようにVALIDATION ERRORが振動する理由とその対策について

(4)Resnet18を使うという条件のもとで行える精度向上手法はどのようなものがあるか。（データセット拡張やResnet18に別の手法を組み合わせる等）

よろしくお願いいたします。

Accepted Answer

> (1)上記に示した学習曲線ではTRAIN ERRORが表示されていないが、これは正常な動作なのか
下部のログ欄では0になっているので表示されていないと思います．Costは通常，Lossに正則化項を加えた値として知られていますが，今回はTrain Lossが0で，正則化項のみ値があったという解釈になるのではないでしょうか．

> (2)上記に示した混合行列を見ると、各ラベルの画像数が少ないほうがaccuracyが高いことがわかる。訓練画像データを増やしても、必ずしも精度が上がる訳ではないのか。またその場合、訓練画像データの水増しはどの程度まで行うのが効果的なのか。（元画像1枚につき〇枚の水増しを行うと良い等）
必ずしも精度が上がるわけではないですね，Data Augmentationによって決定境界の拡張につながるものの，検証用データがそれに収まるかと言われれば，必ずしもそうではないのが現状です．
各ラベルの画像が多いと外れ値が多分に含まれ，誤差が増大した可能性があります．データクレンジングの過程で葉の認識できない画像は除去されたようですが，ここからさらにクレンジングを実施する必要を提唱します．例えば，画像サイズを224x224にされたようですが，縦横比が変化してしまっている場合は致命的であったり，葉を認識できる画像であったとしても，余計な領域は削ぎ落とす必要があるなど，といった具合です．

> (3)今回のようにVALIDATION ERRORが振動する理由とその対策について
Solver(Optimizer)が不明ですが，訓練画像各5000枚のときと同じであれば，振動する理由は一般的に学習率が高いことが原因です．学習率を下げるか，weight decayの設定をすると抑えられると思います．もしくは学習率の低くて良いOptimizerを利用するなど，ですね．

> (4)Resnet18を使うという条件のもとで行える精度向上手法はどのようなものがあるか。（データセット拡張やResnet18に別の手法を組み合わせる等）
簡単に精度向上を目的とするなら，活性化関数の変更が挙げられます．ReLUは標準的で良いですが，近年出たSwishやMishも利用可能ですので使ってみると良いでしょう．ReLUはx=0で不連続な関数ですがSwishやMishは両者共に連続関数なので良いとされています．

![img](https://i.postimg.cc/CKJ3BZ4s/IMG-37-AD5-CA7-CEDF-1.jpg)

[論文の主張](https://arxiv.org/pdf/1908.08681v3.pdf)からすると，ReLUを使うより精度が良くなるそうです．また，Optimizerの変更も精度向上に繋がります．Discussionを見る限りAdam系統が多いように見えます．

Image Augmentationに関しては，AugmentorにはないCutoutやCutmix，GridShuffleなどを[取り入れた人](https://www.kaggle.com/competitions/cassava-leaf-disease-classification/discussion/220751)もいるので，参考にすると良いでしょう．

他にも[Label Smoothingを取り入れた人](https://www.kaggle.com/competitions/cassava-leaf-disease-classification/discussion/220994)などもいますが，NNCで可能なオプションか不明でした．要検証ですね．

そもそも論，ResNetは画像全体の特徴を捉えるのに長けているので，そこを活かし切れる課題かと聞かれればそうではないように思います．現に上位記録者の投稿にはEfficientNetやViTなどの利用が目立ちます．もし使われるとしてもアンサンブルの1部だと思います．

前提

質問したいこと

関連した質問