ゼロから作るDeeplearning❷-word2vecに関して

前提・実現したいこと

書籍「ゼロから作るDeeplearning❷」のP149の下から５行目の
EmbeddingDotクラス内の「np.sum(target_W * h, axis=1)」
という箇所が計算式の計算方法は分かるのですが

計算結果であるoutが2値分類のsigmoid関数に渡す前の結果となる
理由がよく分からないので説明して頂きたいです。axis=1も計算方法は
分かるのですがなぜここで横方向に圧縮するのかピンときません。。
よろしくお願い致します。
m(_ _)m

▼周りの変数内容は理解しているつもりです。
W = 重み
idx = 抜き出す行
target_W = 重み一覧からidxの行を抽出したもの
h = 中間ニューロン
target_W * h = target_Wとhの内積

該当のソースコード

Python3
1class Embedding:
2    def __init__(self, W):
3        self.params = [W]
4        self.grads = [np.zeros_like(W)]
5        self.idx = None
6    
7    def forward(self,idx):
8        W, = self.params
9        self.idx = idx
10        out = W[idx]
11        return out
12    
13    def backward(self, dout):
14        dW, = self.grads
15        dw[...] = 0
16        for i, word_id in enumerate(self.idx):
17            dW[word_id] += dout[i]
18        return None
19
20
21
22
23class EmbeddingDot:
24    def __init__(self,W):
25        self.embed = Embedding(W)
26        self.params = self.embed.params
27        self.grads  = self.embed.grads
28        self.cache = None
29        
30    def forward(self, h, idx):
31        target_W = self.embed.forward(idx)
32        out = np.sum(target_W * h, axis=1)　　#←※※ここの箇所です
33        
34        self.cache = (h, target_W)
35        return out
36    
37    def backward(self, dout):
38        h, target_W = self.chace
39        dout = dout.reshape(dout.shape[0], 1)
40        
41        dtarget_W = dout * h
42        self.embed.backward(dtarget_W)
43        dh = dout * target_W
44        return dh

補足情報（FW/ツールのバージョンなど）

「ゼロから作るDeep Learning ❷ ―自然言語処理編」P149

aokikenichi

2020/07/23 03:37

idx=単語ID=you, sayなどの単語毎に重みを掛けている横にというのは単語ごとそれをsigmoid with loss に渡して誤差を計算（そしてズレで重みを修正）でここは自然言語うんぬんではなく割と素直なニューラルネットの話だと思いますが、そういうことではないですか。どこが疑問なのか今ひとつ分からず、、、

Ken

2020/07/23 23:51

回答ありがとうございます！昨日も考えていてnp.sum(target_W * h, axis=1)のaxis=1で計算結果をまとめる理由以外は納得がいくようになりました。axis=1をする理由だけが現状分からない状況です。よろしくお願い致します。

行動規範の内容に同意します

回答1件

ベストアンサー

np.sum(target_W * h, axis=1)のaxis=1で計算結果をまとめる理由以外は納得がいくようになりました。axis=1をする理由だけが現状分からない状況です。

答えとしては「内積の計算だから」ですが、

『ゼロから作るDeeplearning❷』p.150の図4-14でご説明します

重み[0 1 2]にhの[0 1 2]が入ってくるのでそれを要素ごと掛けて[0 1 4]。内積が必要なので0+1+4=5
np.sum()はaxisの指定により全て、行ごと、列ごとが指定できますが、ここでは行ごとに列方向を足していくことが必要なのでaxis=1となります。
参考：Python「numpy.sum(...)」のaxisオプション指定まとめ

これで、伝わりますでしょうか、、、

投稿2020/07/24 01:11

aokikenichi

総合スコア2282

Ken

2020/07/24 01:55

ご丁寧にありがとうございます！アドバイスを受けそもそも内積の計算方法の理解自体が出来てなかったように思えます。下記サイトにあるベクトルaとベクトルbにそれぞれ回答頂いたように[0 ,1, 2]を当てはめると求めたい内積は0+1+4=5という理解でよろしいでしょうか？ axis自体の計算方法は理解しております！ https://atarimae.biz/archives/23642

aokikenichi

2020/07/24 02:25

示して頂いたサイトに　ベクトルaとベクトルb　が複数あるのでどれを指されているのか分かりませんが「[0 ,1, 2]を当てはめると」と1つのベクトルではなくて　2つのベクトルがあるときに [1 2 3] と [3 5 9] の内積=(1*3 + 2*5 + 3*9)=3 + 10 + 27=40 となります。それをnp.sumを使って実装するとご質問いただいた行のような書き方となります。

Ken

2020/07/24 03:52

説明が悪すぎて誠に申し訳ございません...。ベクトルの内積の公式自体が頭から抜けており、axis=1でsumする理由が分からないでいました。そんな中丁寧に解説して頂きベクトルの内積の公式を理解していれば該当コードの意味を理解することが出来る事が分かりました。親身に教えて頂き誠にありがとうございました！

行動規範の内容に同意します