(1)doc2vecは教師なし学習である
なにをもって教師なし学習とするかによります。が、少なくともアルゴリズムとしては教師あり学習を利用していると見た方がわかりやすいです。
教師ラベルを(人間が)用意しないという点では教師なしっぽいですが、解いているタスクそのものは
- 文脈+文書idで単語を予測する
- 文書idを文脈に写像する
と教師あり学習だからです。
(2)doc2vecは機械学習のなかでも、教師なし学習をしており、グルーピングを行なっている。
クラスタリング等をしないとグループにはなりません。
やっていることは意味ベクトルの獲得です。
(3)doc2vecはディープラーニングをしているわけではない(隠れ層は1である)
同意。
→ディープラーニングの定義や、色々な人のブログなどを読んでもイマイチdoc2vecのアルゴリズムがどこに位置付けられるのかがわかりませんでした。
最初にword2vecが発見されたときは、「こうすると意味ベクトルの獲得みたいなことができる。理由はよくわからないが」という形で出てきました。
なので、理論的な位置づけは「謎」でした。
2014年からは、PMI(Pointwise Mutual Information,自己相互情報量)とword2vecやdoc2vecが理論的に等価ということが言われています。
参考:
Kazuma HASHIMOTO (橋本 和真)
行列とニューラルネットが手をつなぐ - 武蔵野日記
なので、今はニューラルネットを用いてPMIを少ない計算コストで近似計算する手法として理解されていると思います。
目的は、自然言語表現の分散表現を獲得することです。word2vec, GloVe, fastTextなどが仲間です。
また、アルゴリズムは異なりますが、自然言語処理で用いられてきた潜在意味分析やトピックモデル系の手法とも関連する(同じような使いかたができるという意味において)とみなせるでしょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。