質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

Q&A

解決済

1回答

1024閲覧

深層学習モデルのファインチューニングの比較の際のパラメータ

aoies

総合スコア331

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

0グッド

0クリップ

投稿2021/05/20 07:11

編集2021/05/20 12:20

ResNet、EfficientNetなどの既存の事前学習されたモデルを別のタスクでファインチューニングして用いて精度比較を行う研究がたまにあります。
この際、全てのモデルで学習率などのパラメータを統一して精度を出し、比較をしていることが度々ありました[*注1]。
しかし、適切な学習率等の値はモデルのアーキテクチャごとに異なるのではないのでしょうか?
最適なパラメータに合わせることなしにモデル間の精度の比較をしてもどのモデルがタスクに適しているのかは見えてこないように思うのですがどうなのでしょうか?
転移学習元のモデルを変えても最適な学習率は変わらないという仮定は一般に使用可能なのでしょうか?

(ただ質問投稿後に他の文献見てると、モデル間で最適な学習率の違いがあんまりなさそうな結果[*注2]が出ていたので心配は杞憂なのかもしれませんが。)

注1:例1例2
注2:参考(Figure 4)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

toast-uz

2021/05/20 09:48

どこで見ましたか?
toast-uz

2021/05/20 11:34

もう少し、主張を特定していただけますか? 最初のリンクではlr=0.0001、次のリンクではlr=0.001とそれぞれ異なっていますね。ということは論文ごとに学習率は異なっています。意図して学習率を揃えているのでは、という質問者様の主張には、エビデンスとして弱いと思いましした。
aoies

2021/05/20 12:31 編集

すいません。質問の意図としては「XXXというタスクを解く機械学習の検討として、AAANet、BBBNet、CCCNetの転移学習をして精度を比較したよ、BBBNetで一番良い精度が出たよ」という研究はよくあるが、それぞれ最適な学習率が違う可能性があるから学習率を統一して比較してもあまり意味がないのではないか、ということでした。 まあ研究者としても「だからこのタスクではBBBNetを使うのが一番良い」と言っているわけではなく単純に学習率を統一した、という条件のもとの比較結果を示してるだけですよ、という感じだと思うのですが。 ただ、少なくとも学習率を統一してもどのモデルの学習もそこそこ上手くいく、という前提がないとやっぱりこの比較はあまり意味がない気がします。経験的にせよ理論的にせよ、「アーキテクチャの異なるモデル間でもファインチューニングの適切な学習率は大きく変化しない」ということは自明で知られていることなのでしょうか?
toast-uz

2021/05/20 12:45

モデルと、厳密には学習データに依存して、最適な学習率は異なると思います。ただし、ファインチューニングや転移学習では元の学習結果からスタートしますので、学習率の影響は相対的に少ないとは言えると思います。
guest

回答1

0

ベストアンサー

質問者様の言われるように、最適な学習率はモデルに依存します。よって、複数のモデルの比較で学習率を統一しているのは、簡便さを重視したからであり、最適ではないと考えます。

ただし、ファインチューニングや転移学習は、既存の学習結果からスタートしますので、相対的に学習率の影響は少ないのではと考えます。

投稿2021/05/20 12:30

編集2021/05/20 12:46
toast-uz

総合スコア3266

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

aoies

2021/05/20 12:46

ありがとうございます。 自分の深層学習の経験が浅いのでわかっていないのですが、 深層学習に詳しい人たちにとっては「異なるアーキテクチャのモデル間でも最適な学習率はあんまり大きくは変わらないよね」というような経験的な共通認識はあったりするのでしょうか? そういう考えでないと簡易的な方策というにしても学習率を統一して比較を行うという発想は出てこないと思うので。
aoies

2021/05/20 12:50

なるほどファインチューニングだからもとのモデルの性質が多少違っても学習率の影響は少ないというのは確かにその通りだと納得しました。ありがとうございます!
toast-uz

2021/05/20 12:54 編集

モデルによって、最適な学習率とepoch数が結構変わる印象があります。ただし、細かいチューニングはモデル構造含めてoptunaなどで最適化しますので、何が最適か?かはやってみてわかる、という感じです。逆に言うと、モデルが変わっても学習率はあんまり大きく変わらない、という認識はありません。ただし、回答に書いたように、ファインチューニングは元の(最適な)学習結果からスタートしますので、相対的に、学習率の影響が少ないとは言えます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問