画像生成　GAN-INTの評価関数について教えて下さい。

GAN-INTで提案されている下記式についてどのようなことを行っているのか下記がわかっていません。
GAN-INTの評価関数について理解したので教えて欲しいです。

下記にがGAN－INTの損失関数です。

下記の論文の内容になります。
リンク内容
内容は4.3に記載されています。

質問
・テキスト補間（第3項）では何をしているのか知りたい
・第3項が追加されたことで式はどの様に影響してくるのか知りたい

添付しています論文にはテキスト補間の目的関数を足したと記載がありましたので
ここに貼り付けた画像の様な式になる様に従来のGANの評価関数の式にテキスト補間の式を足した理解でいます。
ここで理解ができないのが、
画像生成した結果と正解の文章のエンコードされたものをペアで読み込んでいると記載があります。
ここから冒頭の
トレーニングセットの正解の文章のエンコードされたデータの間を補間するだけで、大量の追加のテキスト埋め込みを生成できます。
のところで、
よく理解できていないのですが、

下記の理解で良いのか知りたいです。

ノイズと正解テキストの補間データを比べて
ノイズと正解テキストに無い間をここの式して補間しその結果が第三項の赤枠に入っているという認識で良いのでしょうか。

そうすると、
本来のGANの式であれば、
Dは右辺の第１項と第２項を共に大きくする様な働きを持ちます。
Gは第2項を小さくする様に
働きますが、
第3項が追加されたことでこれらはどの様な働きをするのか理解ができません。
長文で失礼しますが、
よろしくお願い致します。