Transformerのモデル構築ができません（複数のテキストと数値の情報から3値分類したいです）

背景

A社の商品xの売り上げを英語ツイートのテキスト情報を利用して機械学習で予測することを卒論研究で行なっています。
売り上げとツイートを時系列(1d)に分割し、区間番号を割り当てています。
区間[n-k+1,n]のk区間分の情報が与えられたとき、区間(n+1)の売り上げ(sales)がup,stay,downのどれになるかを判定します。

感情分析×SVMによる予測　←クリア済み

商品xを含むツイートを収集し、感情分析にかけてpos,neu,negの3つに分類
区間ごとにpos,neu,negの数をカウント
SVMの入力：{pos,neu,neg_count(n), sales(n)} × k区間分
SVMの出力：sales(n+1)

Transformerによる予測　←今ここです

入力：{区間nのすべてのtweet_text、sales(n)} × k区間分
出力：sales(n+1)
となるようなモデルを作りたいです。

実現したいのは、感情分析と予測部分を別々にしていたのを1つのニューラルネットワークに落とし込むことです。
要件は以下の通りです。

・感情分析を使わない
感情分析のライブラリなどは使わず、複数のテキストと売り上げの情報のみから影響が大きい特徴量を学習するような形にしたいです。

・Transformerを使う（PyTorch）
LSTMなどは使わず、比較的新しい技術であるTransformerで実装することを想定しています。
基礎的な知識については、論文とこの記事を元に学習しました。

質問内容

コーディングというよりは、まずモデルをどのように構築していけばいいかを知りたいです。
分類問題なのでEncoderのみを使うと思うのですが、ある一つのテキストを何かに分類するのではなく、複数のテキストと数値からある一つの分類をするというところのモデルイメージが湧いていない状態です。
データが流れるフローを図などのわかりやすい形で説明して頂けると助かります。
Transformerに詳しい人が身近にいなくて困っています。
よろしくお願いします。