GLUEのCoLAタスクで用意されているtestデータの正解値はどこ？

GLUE(General Language Understanding Evaluation)のCoLA（The Corpus of Linguistic Acceptability）タスクに関して質問させて下さい。

BERTで2値分類のモデルを構築したいと思っています。
まず手元でもモデルが問題なく構築できることを確認するために、SOTAを目標として進めています。
データセットはGLUEのCoLAタスクのものを利用しているのですが、テストデータで気になっていることがあり質問させていただきました。

下記のページからデータをDLしてきたのですが、train、devデータには正解ラベルが付与されているのに、testデータには付与されていませんでした。
https://gluebenchmark.com/tasks
この場合、testデータはどのように取り扱えばよいのでしょうか。全て正解として扱えばよいのか、どこかに正解データのみが存在するのでしょうか。

もしくは、こちらのページのHuman Annotationsから入手できるものを評価データとしてを利用されているのでしょうか。
https://nyu-mll.github.io/CoLA/

よろしくお願い致します。