TransformerのSelf Attentionでは、同じ入力に対しそれぞれの行列をかけquery,key,valueに分けるのですがquery,key,valueをどのようなものにするために学習しているのかが分かりません。
また、positional encodingされた入力データをどう活用しているかもわかりません。
よろしくお願いします。
あなたの回答
tips
プレビュー
投稿2021/10/03 14:31
編集2021/10/04 00:47TransformerのSelf Attentionでは、同じ入力に対しそれぞれの行列をかけquery,key,valueに分けるのですがquery,key,valueをどのようなものにするために学習しているのかが分かりません。
また、positional encodingされた入力データをどう活用しているかもわかりません。
よろしくお願いします。
あなたの回答
tips
プレビュー