質問編集履歴

前回の題名はTensorflow寄りだったので、変更しました。

2019/06/21 03:16

投稿

g4evo

スコア13

test CHANGED Viewed

	@@ -1 +1 @@
1	- Tensor~~flow~~ Tut~~orial 画像キャプションのモデル~~について
1	+ AttentionモデルのDecoder Inputについて

test CHANGED Viewed

@@ -2,19 +2,23 @@
-現在、Tensorflowを利用して深層学習について学んでおります。
+現在、Tensorflowを利用して深層学習(系列変換モデル)について学んでおります。
 https://www.tensorflow.org/beta/tutorials/text/image_captioning
 Tensorflowチュートリアル（上記URLページ）にある、画像のキャプション生成を行なっているのですが、
-Decoderのモデルのcall関数について、違和感を感じたので質問させてください。
+Decoderのモデルのcall関数について、疑問をもったので質問させてください。
 ### 発生している問題・エラーメッセージ
 上記ページ内ではshow, attend and tellという論文に基づいて、Attention機構を導入したCNNEncoder+RNNDecoderでキャプションを生成するというモデルになっています。
+私の理解では、時刻tにおけるDecoderRNNへの入力となるのはx(t)と前時刻のRNNの出力(隠れ層の出力)であるh(t-1)であり、これにAttentionを導入した場合はh(t-1)はAttentionとの重み付き平均で表されるものだと思っていたのですが、以下のような実装でも同じ出力となるのでしょうか。
 以下、チュートリアルページに記載のあったDecoderクラスです。
@@ -104,9 +108,9 @@
 ```
-上記のcall関数なのですが、attentionと埋め込みを得るところ(x=self.embedding(x)のところ)まではわかるのですが、その後attentionとxをconcatしてself.gruへ入力するというところに違和感を感じています。
+上記のcall関数内で、attentionと埋め込みを得るところ(x=self.embedding(x)のところ)まではわかるのですが、その後attentionとxをconcatしてself.gruへ入力するというところに疑問をもっています。
-context_vectorはencoder_output（CNNが出力した特徴量)とdecoder_hiddenから得たattentionを表しています。また、self.gru(x)のとき、つまり、initial_stateがNoneの時は、これは零ベクトルで計算されるようになっているようです。
+context_vectorはencoder_output（CNNが出力した特徴量)と(t-1)のdecoder_hiddenから得たattentionを表しています。また、self.gru(x)のとき、つまり、initial_stateがNoneの時、これは零ベクトルで計算されるようになっているようです。
 私自身の理解ではself.gru(x, initial_state=context_vector)となるのではないかなと思っていたのですが、上記のような記述でも同じ出力が得られるのでしょうか？