回答編集履歴

3

タイトルが変わったので

2018/10/13 03:55

投稿

hayataka2049
hayataka2049

スコア30933

test CHANGED
@@ -1,11 +1,3 @@
1
- 質問タイトルが悪い気がします。むしろ「doc2vecの位置づけについて」とでもした方が適当だと思います。
2
-
3
-
4
-
5
- ---
6
-
7
-
8
-
9
1
  > (1)doc2vecは教師なし学習である
10
2
 
11
3
 

2

全体的に修正

2018/10/13 03:55

投稿

hayataka2049
hayataka2049

スコア30933

test CHANGED
@@ -1,8 +1,16 @@
1
+ 質問タイトルが悪い気がします。むしろ「doc2vecの位置づけについて」とでもした方が適当だと思います。
2
+
3
+
4
+
5
+ ---
6
+
7
+
8
+
1
9
  > (1)doc2vecは教師なし学習である
2
10
 
3
11
 
4
12
 
5
- これは教師なし学習という言葉の定義よりますが、少なくともアルゴリズムとしては教師あり学習を利用していると位置づけた方がわかりやすいです。
13
+ なにをもって教師なし学習とするかによりますが、少なくともアルゴリズムとしては教師あり学習を利用しているとた方がわかりやすいです。
6
14
 
7
15
 
8
16
 
@@ -26,25 +34,11 @@
26
34
 
27
35
 
28
36
 
29
- ても微妙です
37
+ クラスタリング等をしないグループにはなりません
30
38
 
31
39
 
32
40
 
33
- 最初にword2vecが発見されたときは、「よくわからなけどうすると意味ベクトルの獲得みたいなことがきるみたい」という形で出てきたからです。
41
+ やってこと意味ベクトルの獲得です。
34
-
35
-
36
-
37
- 2014年からは、PMI(Pointwise Mutual Information,自己相互情報量)とword2vecやdoc2vecが理論的に等価ということが言われています。
38
-
39
-
40
-
41
- [Kazuma HASHIMOTO (橋本 和真)](http://www.logos.t.u-tokyo.ac.jp/~hassy/deep_learning/word2vec_pmi/)
42
-
43
- [行列とニューラルネットが手をつなぐ - 武蔵野日記](http://d.hatena.ne.jp/mamoruk/20150609/p1)
44
-
45
-
46
-
47
- なので、今はニューラルネットを用いてPMIを少ない計算コストで近似計算する手法として理解されていると思います。
48
42
 
49
43
 
50
44
 
@@ -68,8 +62,32 @@
68
62
 
69
63
 
70
64
 
71
- 無理どこかに位置づけなくても良いとは思いまが、あえて言えば自然言語分散表現獲得手法というくくり
65
+ 最初word2vecが発見された、「こうると意味ベクトルの獲得みたいなこができる。理由はよくわからなが」とい出てきました
72
66
 
73
67
 
74
68
 
69
+ なので、理論的な位置づけは「謎」でした。
70
+
71
+
72
+
73
+ 2014年からは、PMI(Pointwise Mutual Information,自己相互情報量)とword2vecやdoc2vecが理論的に等価ということが言われています。
74
+
75
+
76
+
77
+ 参考:
78
+
79
+ [Kazuma HASHIMOTO (橋本 和真)](http://www.logos.t.u-tokyo.ac.jp/~hassy/deep_learning/word2vec_pmi/)
80
+
81
+ [行列とニューラルネットが手をつなぐ - 武蔵野日記](http://d.hatena.ne.jp/mamoruk/20150609/p1)
82
+
83
+
84
+
85
+ なので、今はニューラルネットを用いてPMIを少ない計算コストで近似計算する手法として理解されていると思います。
86
+
87
+
88
+
75
- word2vec, GloVe, fastTextなんかが仲間です
89
+ 目的は、自然言語表現の分散表現を獲得することです。word2vec, GloVe, fastTextなが仲間です。
90
+
91
+
92
+
93
+ また、アルゴリズムは異なりますが、自然言語処理で用いられてきた潜在意味分析やトピックモデル系の手法とも関連する(同じような使いかたができるという意味において)とみなせるでしょう。

1

分かりづらいので線を追加

2018/10/13 01:40

投稿

hayataka2049
hayataka2049

スコア30933

test CHANGED
@@ -15,6 +15,10 @@
15
15
 
16
16
 
17
17
  と教師あり学習だからです。
18
+
19
+
20
+
21
+ ---
18
22
 
19
23
 
20
24
 
@@ -44,11 +48,19 @@
44
48
 
45
49
 
46
50
 
51
+ ---
52
+
53
+
54
+
47
55
  > (3)doc2vecはディープラーニングをしているわけではない(隠れ層は1である)
48
56
 
49
57
 
50
58
 
51
59
  同意。
60
+
61
+
62
+
63
+ ---
52
64
 
53
65
 
54
66