回答編集履歴
3
タイトルが変わったので
test
CHANGED
@@ -1,11 +1,3 @@
|
|
1
|
-
質問タイトルが悪い気がします。むしろ「doc2vecの位置づけについて」とでもした方が適当だと思います。
|
2
|
-
|
3
|
-
|
4
|
-
|
5
|
-
---
|
6
|
-
|
7
|
-
|
8
|
-
|
9
1
|
> (1)doc2vecは教師なし学習である
|
10
2
|
|
11
3
|
|
2
全体的に修正
test
CHANGED
@@ -1,8 +1,16 @@
|
|
1
|
+
質問タイトルが悪い気がします。むしろ「doc2vecの位置づけについて」とでもした方が適当だと思います。
|
2
|
+
|
3
|
+
|
4
|
+
|
5
|
+
---
|
6
|
+
|
7
|
+
|
8
|
+
|
1
9
|
> (1)doc2vecは教師なし学習である
|
2
10
|
|
3
11
|
|
4
12
|
|
5
|
-
|
13
|
+
なにをもって教師なし学習とするかによります。が、少なくともアルゴリズムとしては教師あり学習を利用していると見た方がわかりやすいです。
|
6
14
|
|
7
15
|
|
8
16
|
|
@@ -26,25 +34,11 @@
|
|
26
34
|
|
27
35
|
|
28
36
|
|
29
|
-
と
|
37
|
+
クラスタリング等をしないとグループにはなりません。
|
30
38
|
|
31
39
|
|
32
40
|
|
33
|
-
|
41
|
+
やっていることは意味ベクトルの獲得です。
|
34
|
-
|
35
|
-
|
36
|
-
|
37
|
-
2014年からは、PMI(Pointwise Mutual Information,自己相互情報量)とword2vecやdoc2vecが理論的に等価ということが言われています。
|
38
|
-
|
39
|
-
|
40
|
-
|
41
|
-
[Kazuma HASHIMOTO (橋本 和真)](http://www.logos.t.u-tokyo.ac.jp/~hassy/deep_learning/word2vec_pmi/)
|
42
|
-
|
43
|
-
[行列とニューラルネットが手をつなぐ - 武蔵野日記](http://d.hatena.ne.jp/mamoruk/20150609/p1)
|
44
|
-
|
45
|
-
|
46
|
-
|
47
|
-
なので、今はニューラルネットを用いてPMIを少ない計算コストで近似計算する手法として理解されていると思います。
|
48
42
|
|
49
43
|
|
50
44
|
|
@@ -68,8 +62,32 @@
|
|
68
62
|
|
69
63
|
|
70
64
|
|
71
|
-
|
65
|
+
最初にword2vecが発見されたときは、「こうすると意味ベクトルの獲得みたいなことができる。理由はよくわからないが」という形で出てきました。
|
72
66
|
|
73
67
|
|
74
68
|
|
69
|
+
なので、理論的な位置づけは「謎」でした。
|
70
|
+
|
71
|
+
|
72
|
+
|
73
|
+
2014年からは、PMI(Pointwise Mutual Information,自己相互情報量)とword2vecやdoc2vecが理論的に等価ということが言われています。
|
74
|
+
|
75
|
+
|
76
|
+
|
77
|
+
参考:
|
78
|
+
|
79
|
+
[Kazuma HASHIMOTO (橋本 和真)](http://www.logos.t.u-tokyo.ac.jp/~hassy/deep_learning/word2vec_pmi/)
|
80
|
+
|
81
|
+
[行列とニューラルネットが手をつなぐ - 武蔵野日記](http://d.hatena.ne.jp/mamoruk/20150609/p1)
|
82
|
+
|
83
|
+
|
84
|
+
|
85
|
+
なので、今はニューラルネットを用いてPMIを少ない計算コストで近似計算する手法として理解されていると思います。
|
86
|
+
|
87
|
+
|
88
|
+
|
75
|
-
word2vec, GloVe, fastTextな
|
89
|
+
目的は、自然言語表現の分散表現を獲得することです。word2vec, GloVe, fastTextなどが仲間です。
|
90
|
+
|
91
|
+
|
92
|
+
|
93
|
+
また、アルゴリズムは異なりますが、自然言語処理で用いられてきた潜在意味分析やトピックモデル系の手法とも関連する(同じような使いかたができるという意味において)とみなせるでしょう。
|
1
分かりづらいので線を追加
test
CHANGED
@@ -15,6 +15,10 @@
|
|
15
15
|
|
16
16
|
|
17
17
|
と教師あり学習だからです。
|
18
|
+
|
19
|
+
|
20
|
+
|
21
|
+
---
|
18
22
|
|
19
23
|
|
20
24
|
|
@@ -44,11 +48,19 @@
|
|
44
48
|
|
45
49
|
|
46
50
|
|
51
|
+
---
|
52
|
+
|
53
|
+
|
54
|
+
|
47
55
|
> (3)doc2vecはディープラーニングをしているわけではない(隠れ層は1である)
|
48
56
|
|
49
57
|
|
50
58
|
|
51
59
|
同意。
|
60
|
+
|
61
|
+
|
62
|
+
|
63
|
+
---
|
52
64
|
|
53
65
|
|
54
66
|
|