回答編集履歴
1
fix context
answer
CHANGED
@@ -1,1 +1,12 @@
|
|
1
|
-
出力層の活性化関数次第なので実装を見ないとなんとも言えないです.
|
1
|
+
出力層の活性化関数次第なので実装を見ないとなんとも言えないです.
|
2
|
+
|
3
|
+
> ViTモデルでは活性化関数で非線形のGELUが用いられていること
|
4
|
+
> ReLUと違い、負の要素を含んでいること
|
5
|
+
|
6
|
+
これはあくまでViTのTransformer Encoder内のMLPの箇所で動作する活性化関数の話だと思います.
|
7
|
+
が,実際に値を叩き出すのはMLP Headerに付随する最後の活性化関数でしかなく
|
8
|
+
そこを示していただかないことにはこちらも正常か判断しかねます.
|
9
|
+
|
10
|
+
ちなみに2値分類ということで1出力のレイヤにして使っているなら,
|
11
|
+
そのままのBCELossかBCEWithLogitsLossのどちらかを採用することになると思います(2出力でも同様です).
|
12
|
+
後者であれば出力が値域-6 ~ 5を示すのは何ら不思議ではありません.
|