ViTモデルの出力値について

機械学習初心者です。
現在、Vision transformerをベースとした画像分類モデルを実装しようとしております。
２値分類モデルなのですが、人が見ても違いがわかるような画像であるため、テストデータセットでも良好なAcc, lossが得られています。
次のステップとして、作成したモデルに未知の画像をインプットして出力スコアを確認しようとしておりますが、出力スコアが-6から5の範囲で出力されており、この出力が正常なのか判断できずにおります。

・ViTモデルでは活性化関数で非線形のGELUが用いられていること
・ReLUと違い、負の要素を含んでいること

上記については、調べて情報は得られているのですが、どのように解釈すればよいか助言をいただけますと幸甚です。よろしくお願いします。

行動規範の内容に同意します

回答2件

ps_aux_grepさん
ありがとうございます。
コメントの内容の「Transformer Encoder内のMLPの箇所で動作する活性化関数」と「実際に値を叩き出すのはMLP Headerに付随する最後の活性化関数」を同一のもの勘違いしていたのだと思います。
以下にモデルの実装するコードを示しますが、「実際に値を叩き出すのはMLP Headerに付随する最後の活性化関数」が設定されていないという理解で正しいでしょうか。

model = timm.create_model('vit_base_patch16_224', pretrained=True, num_classes=2)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=lr)
scheduler = StepLR(optimizer, step_size=1, gamma=gamma)

投稿2023/10/25 03:58

編集2023/10/25 04:00

sci

総合スコア1

ps_aux_grep

2023/10/25 05:26 編集

timm.create_model('vit_base_patch16_224', pretrained=True, num_classes=2) の中身次第ですね．これだけではモデルを読み込んでるだけなので実装がわからずなんとも言えないですが，慣例で最後のレイヤはLinearでそのままの値が出されていると思われます．これをLogitに変換するためにはSoftmax関数を通すのが良いでしょう．そうしたらお望みの0~1の確率値が得られるはずです．