ResNet、EfficientNetなどの既存の事前学習されたモデルを別のタスクでファインチューニングして用いて精度比較を行う研究がたまにあります。
この際、全てのモデルで学習率などのパラメータを統一して精度を出し、比較をしていることが度々ありました[*注1]。
しかし、適切な学習率等の値はモデルのアーキテクチャごとに異なるのではないのでしょうか?
最適なパラメータに合わせることなしにモデル間の精度の比較をしてもどのモデルがタスクに適しているのかは見えてこないように思うのですがどうなのでしょうか?
転移学習元のモデルを変えても最適な学習率は変わらないという仮定は一般に使用可能なのでしょうか?
(ただ質問投稿後に他の文献見てると、モデル間で最適な学習率の違いがあんまりなさそうな結果[*注2]が出ていたので心配は杞憂なのかもしれませんが。)
どこで見ましたか?
もう少し、主張を特定していただけますか?
最初のリンクではlr=0.0001、次のリンクではlr=0.001とそれぞれ異なっていますね。ということは論文ごとに学習率は異なっています。意図して学習率を揃えているのでは、という質問者様の主張には、エビデンスとして弱いと思いましした。
すいません。質問の意図としては「XXXというタスクを解く機械学習の検討として、AAANet、BBBNet、CCCNetの転移学習をして精度を比較したよ、BBBNetで一番良い精度が出たよ」という研究はよくあるが、それぞれ最適な学習率が違う可能性があるから学習率を統一して比較してもあまり意味がないのではないか、ということでした。
まあ研究者としても「だからこのタスクではBBBNetを使うのが一番良い」と言っているわけではなく単純に学習率を統一した、という条件のもとの比較結果を示してるだけですよ、という感じだと思うのですが。
ただ、少なくとも学習率を統一してもどのモデルの学習もそこそこ上手くいく、という前提がないとやっぱりこの比較はあまり意味がない気がします。経験的にせよ理論的にせよ、「アーキテクチャの異なるモデル間でもファインチューニングの適切な学習率は大きく変化しない」ということは自明で知られていることなのでしょうか?
モデルと、厳密には学習データに依存して、最適な学習率は異なると思います。ただし、ファインチューニングや転移学習では元の学習結果からスタートしますので、学習率の影響は相対的に少ないとは言えると思います。
回答1件
あなたの回答
tips
プレビュー