深層学習モデルのファインチューニングの比較の際のパラメータ

ResNet、EfficientNetなどの既存の事前学習されたモデルを別のタスクでファインチューニングして用いて精度比較を行う研究がたまにあります。
この際、全てのモデルで学習率などのパラメータを統一して精度を出し、比較をしていることが度々ありました[*注1]。
しかし、適切な学習率等の値はモデルのアーキテクチャごとに異なるのではないのでしょうか？
最適なパラメータに合わせることなしにモデル間の精度の比較をしてもどのモデルがタスクに適しているのかは見えてこないように思うのですがどうなのでしょうか？
転移学習元のモデルを変えても最適な学習率は変わらないという仮定は一般に使用可能なのでしょうか？

（ただ質問投稿後に他の文献見てると、モデル間で最適な学習率の違いがあんまりなさそうな結果[*注2]が出ていたので心配は杞憂なのかもしれませんが。）

注1:例1、例2
注2:参考（Figure 4）

toast-uz

2021/05/20 09:48

どこで見ましたか？

aoies

2021/05/20 10:29 編集

例えば https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7667011/ https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6775068/ とかです。

toast-uz

2021/05/20 11:34

もう少し、主張を特定していただけますか？最初のリンクではlr=0.0001、次のリンクではlr=0.001とそれぞれ異なっていますね。ということは論文ごとに学習率は異なっています。意図して学習率を揃えているのでは、という質問者様の主張には、エビデンスとして弱いと思いましした。

aoies

2021/05/20 12:31 編集

すいません。質問の意図としては「XXXというタスクを解く機械学習の検討として、AAANet、BBBNet、CCCNetの転移学習をして精度を比較したよ、BBBNetで一番良い精度が出たよ」という研究はよくあるが、それぞれ最適な学習率が違う可能性があるから学習率を統一して比較してもあまり意味がないのではないか、ということでした。まあ研究者としても「だからこのタスクではBBBNetを使うのが一番良い」と言っているわけではなく単純に学習率を統一した、という条件のもとの比較結果を示してるだけですよ、という感じだと思うのですが。ただ、少なくとも学習率を統一してもどのモデルの学習もそこそこ上手くいく、という前提がないとやっぱりこの比較はあまり意味がない気がします。経験的にせよ理論的にせよ、「アーキテクチャの異なるモデル間でもファインチューニングの適切な学習率は大きく変化しない」ということは自明で知られていることなのでしょうか？

toast-uz

2021/05/20 12:45

モデルと、厳密には学習データに依存して、最適な学習率は異なると思います。ただし、ファインチューニングや転移学習では元の学習結果からスタートしますので、学習率の影響は相対的に少ないとは言えると思います。

行動規範の内容に同意します

回答1件

ベストアンサー

質問者様の言われるように、最適な学習率はモデルに依存します。よって、複数のモデルの比較で学習率を統一しているのは、簡便さを重視したからであり、最適ではないと考えます。

ただし、ファインチューニングや転移学習は、既存の学習結果からスタートしますので、相対的に学習率の影響は少ないのではと考えます。

投稿2021/05/20 12:30

編集2021/05/20 12:46

toast-uz

総合スコア3266

aoies

2021/05/20 12:46

ありがとうございます。自分の深層学習の経験が浅いのでわかっていないのですが、深層学習に詳しい人たちにとっては「異なるアーキテクチャのモデル間でも最適な学習率はあんまり大きくは変わらないよね」というような経験的な共通認識はあったりするのでしょうか？そういう考えでないと簡易的な方策というにしても学習率を統一して比較を行うという発想は出てこないと思うので。

aoies

2021/05/20 12:50

なるほどファインチューニングだからもとのモデルの性質が多少違っても学習率の影響は少ないというのは確かにその通りだと納得しました。ありがとうございます！

toast-uz

2021/05/20 12:54 編集

モデルによって、最適な学習率とepoch数が結構変わる印象があります。ただし、細かいチューニングはモデル構造含めてoptunaなどで最適化しますので、何が最適か？かはやってみてわかる、という感じです。逆に言うと、モデルが変わっても学習率はあんまり大きく変わらない、という認識はありません。ただし、回答に書いたように、ファインチューニングは元の（最適な）学習結果からスタートしますので、相対的に、学習率の影響が少ないとは言えます。

行動規範の内容に同意します