編集履歴

回答編集履歴

タイトルが変わったので

2018/10/13 03:55

投稿

hayataka2049

スコア30939

test CHANGED Viewed

@@ -1,11 +1,3 @@
-質問タイトルが悪い気がします。むしろ「doc2vecの位置づけについて」とでもした方が適当だと思います。
----
 > (1)doc2vecは教師なし学習である

全体的に修正

2018/10/13 03:55

投稿

hayataka2049

スコア30939

test CHANGED Viewed

@@ -1,8 +1,16 @@
+質問タイトルが悪い気がします。むしろ「doc2vecの位置づけについて」とでもした方が適当だと思います。
+---
 > (1)doc2vecは教師なし学習である
-これは教師なし学習という言葉の定義にもよりますが、少なくともアルゴリズムとしては教師あり学習を利用していると位置づけた方がわかりやすいです。
+なにをもって教師なし学習とするかによります。が、少なくともアルゴリズムとしては教師あり学習を利用していると見た方がわかりやすいです。
@@ -26,25 +34,11 @@
-とても微妙です。
+クラスタリング等をしないとグループにはなりません。
-最初にword2vecが発見されたときは、「よくわからないけどこうすると意味ベクトルの獲得みたいなことができるみたい」という形で出てきたからです。
+やっていることは意味ベクトルの獲得です。
-2014年からは、PMI(Pointwise Mutual Information,自己相互情報量)とword2vecやdoc2vecが理論的に等価ということが言われています。
-[Kazuma HASHIMOTO (橋本 和真)](http://www.logos.t.u-tokyo.ac.jp/~hassy/deep_learning/word2vec_pmi/)
-[行列とニューラルネットが手をつなぐ - 武蔵野日記](http://d.hatena.ne.jp/mamoruk/20150609/p1)
-なので、今はニューラルネットを用いてPMIを少ない計算コストで近似計算する手法として理解されていると思います。
@@ -68,8 +62,32 @@
-無理にどこかに位置づけなくても良いとは思いますが、あえて言えば自然言語の分散表現獲得手法というくくりです。
+最初にword2vecが発見されたときは、「こうすると意味ベクトルの獲得みたいなことができる。理由はよくわからないが」という形で出てきました。
+なので、理論的な位置づけは「謎」でした。
+2014年からは、PMI(Pointwise Mutual Information,自己相互情報量)とword2vecやdoc2vecが理論的に等価ということが言われています。
+参考：
+[Kazuma HASHIMOTO (橋本 和真)](http://www.logos.t.u-tokyo.ac.jp/~hassy/deep_learning/word2vec_pmi/)
+[行列とニューラルネットが手をつなぐ - 武蔵野日記](http://d.hatena.ne.jp/mamoruk/20150609/p1)
+なので、今はニューラルネットを用いてPMIを少ない計算コストで近似計算する手法として理解されていると思います。
-word2vec, GloVe, fastTextなんかが仲間ですね。
+目的は、自然言語表現の分散表現を獲得することです。word2vec, GloVe, fastTextなどが仲間です。
+また、アルゴリズムは異なりますが、自然言語処理で用いられてきた潜在意味分析やトピックモデル系の手法とも関連する（同じような使いかたができるという意味において）とみなせるでしょう。

分かりづらいので線を追加

2018/10/13 01:40

投稿

hayataka2049

スコア30939

test CHANGED Viewed

@@ -15,6 +15,10 @@
 と教師あり学習だからです。
+---
@@ -44,11 +48,19 @@
+---
 > (3)doc2vecはディープラーニングをしているわけではない(隠れ層は1である)
 同意。
+---