公式で公開されているImageNet-21kで事前学習されたVision Transformerを、自前の画像(水増しして2500枚程度)と数値の正解データでFine-Tuningして回帰分析を行いたいと思っております。
(例:顔画像から年齢予測,イラスト画像からイラスト作成時間予測など)
しかし、色々調べてみても出てくるのは分類タスクにFine-Tuningさせるものばかりでそもそも可能なのかが分かりませんでした。
ImageNet-21kは分類タスクのデータセットなのでそれをいくらFine-Tuningしても回帰タスクには適応できないということならばやっても仕方がないので、そもそも可能なのか、可能だとしてもViTを使うことに意味があるのか、を教えていただきたいです。
初心者なりに調べたつもりなのですが、もし見当違いの質問でしたら申し訳ございません。
あなたの回答
tips
プレビュー