Transformerの学習の際のtargetデータのインデックスをシフトする理由

引用テキストSEQUENCE-TO-SEQUENCE MODELING WITH NN.TRANSFORMER AND TORCHTEXT

現在上記のURLにあるTransformerに関するチュートリアルを行なっています。

Python
1bptt = 35
2def get_batch(source, i):
3    seq_len = min(bptt, len(source) - 1 - i)
4    data = source[i:i+seq_len]
5    target = source[i+1:i+1+seq_len].reshape(-1)
6    return data, target

上記のコードの５行目でtargetはdataのインデックスを１シフトさせたものだとわかります。
なぜtargetをシフトさせているのでしょうか？

行動規範の内容に同意します

回答1件

ベストアンサー

引用されている図の右下の入力に書かれている「Outputs (shifted right)」を表現しているからです。ご質問事項そのもの対しては、この図をコードに表現しただけ、というのが回答です。

なぜシフトすべきなのかは、原論文に記載があります。（https://arxiv.org/abs/1706.03762）

3.1 Encoder and Decoder Stacks
Decoder: This masking, combined with fact that the output embeddings are offset by one position, ensures that the predictions for position i can depend only on the known outputs at positions less than i.

要するに、予測に現時点以降の未来の正解情報を入れないため（リーク防止）です。これはRNN/LSTMなど時系列深層学習の基本的な考え方です。TransformerはRNN/LSTMの課題を解決した位置づけであるため、基本的な考え方の部分は一緒なのだと思います。

投稿2021/06/04 23:46