4.2のBaselineに大体のことが書いてあります。
要約すると、
A:Encoderと呼ばれるLSTMによって適当な長さに埋め込み(embeddings)を行う部分
B:Classifierと呼ばれる埋め込みの結果をもとに、軽量なクラス分けを行う部分
- A:については、エンコーダでは順方向の隠れ層(f)と逆方向の隠れ層(b) があり、それぞれの結果が結合されてツラツラと繋がった言葉の特徴ができあがり、それをMaxpoolingしてEmbeddingsを構成する。
- B:については、sigmoidによってEmbeddingsを0-1の確率分布に変換する。
Embeddingsを使って○○か判定、は画像認識でもよくある手法です。
ですので、この例は
- 文章をハンドリングしやすくするために、画像認識でも使うような手法を使えるようにする(確率の計算ができるようにお膳立てする)方法としてLSTMを使ったよ。
- 結果、画像をベクトル化(Embeddingsに変換)して表現するように、文章もベクトル化(Embeddingsに変換)できたよ。
- だから画像認識で画像を確率で表現(Sigmoidで変換)するように、CoLAでも文章を確率で表現(Sigmoidで変換)できるようになったよ。
- ね、だから偽物っぽいか本物っぽいか評価できるよね?
と考えるとすんなりいくと思います。