質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Chainer

Chainerは、国産の深層学習フレームワークです。あらゆるニューラルネットワークをPythonで柔軟に書くことができ、学習させることが可能。GPUをサポートしており、複数のGPUを用いた学習も直感的に記述できます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

1回答

257閲覧

Encoder Decoder Modelのソフト注意機構について質問します

good_morning

総合スコア61

Chainer

Chainerは、国産の深層学習フレームワークです。あらゆるニューラルネットワークをPythonで柔軟に書くことができ、学習させることが可能。GPUをサポートしており、複数のGPUを用いた学習も直感的に記述できます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2019/03/27 23:34

私は現在、chainerのLSTMを使って自然言語処理のプログラムを作成しようとしています。
Encoder Decoder Modelのソフト注意機構について、質問したいことがあります。

現在、AttentionDecoderのmodelを次のように定義しています。

python

1class AttentionDecoder(Chain): 2 def __init__(self, vsize, esize, hsize): 3 # Attention ModelのためのDecoderのインスタンス化 4 # :param vsize: 語彙数 5 # :param esize: 単語ベクトルのサイズ 6 # :param hsize: 隠れ層のサイズ 7 super(AttentionDecoder, self).__init__( 8 ye=L.EmbedID(vsize, esize, ignore_label=-1), # 単語を単語ベクトルに変換する層 9 eh=L.Linear(esize, 4 * hsize), # 単語ベクトルを隠れ層の4倍のサイズのベクトルに変換する層 10 hh=L.Linear(hsize, 4 * hsize), # Decoderの中間ベクトルを隠れ層の4倍のサイズのベクトルに変換する層 11 fh=L.Linear(hsize, 4 * hsize), # 順向きEncoderの中間ベクトルの加重平均を隠れ層の4倍のサイズのベクトルに変換する層 12 bh=L.Linear(hsize, 4 * hsize), # 順向きEncoderの中間ベクトルの加重平均を隠れ層の4倍のサイズのベクトルに変換する層 13 he=L.Linear(hsize, esize), # 隠れ層サイズのベクトルを単語ベクトルのサイズに変換する層 14 ey=L.Linear(esize, vsize) # 単語ベクトルを語彙数サイズのベクトルに変換する層

ここで質問ですが、すべての隠れ層において、出力ベクトルサイズを入力ベクトルサイズの4倍にしています。通常は、出力ベクトルサイズは次の層の入力ベクトルサイズにしていると思います。この場合、ネットワークはどのようになっていると考えられますでしょうか。

よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

前後のコードが不明で憶測で答えますが、おそらくこのコードのEncoderではLSTMが使われているように思えます。
LSTMのパラメータは

  • 入力ゲート
  • 忘却ゲート
  • 出力ゲート
  • メモリ

がそれぞれありますので、この4つに合わせてAttentionを計算しているかもしれません。

投稿2020/07/13 12:26

xgb

総合スコア33

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問