よろしくお願いします。
自分は今、Huggingface TransformerをPytorchで利用しています。
概要としてやっていることは、CamembertForSequenceClassificationを使った文書分類です。エラーはなく結果は得られているのですが、もう少し踏み込んだフェーズに挑戦したいと思い、この文献を参考にしています。
この文献の4.1項に、
After training, we drop the softmax activation layer and use BERT's hidden state as the feature vector, which we then use as input for different classification algorithms.
とありました。
なので、modeling_bert.pyを見てみたところ、そこには
attention_probs = nn.Softmax(dim=-1)(attention_scores)
がありました。
論文通りに見ると、attention_scoresを、Softmax関数に通す前に利用するということでしょうか?
もしそうなのであれば、自分はこのattention_scoresをどのように分類アルゴリズムに適用すればよいのでしょうか?
要するに、自分はBERTの隠れ状態を、Logistic RegressionやRandomForestに使いたいということです。
長くなってしまい、申し訳ございません。どなたかわかる方、どうかご教示ください。
あなたの回答
tips
プレビュー