回答率: 85.31%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.31%

トップ Python 3.xに関する質問

Q&A

1回答

2783閲覧

doc2vecの位置付けについて

総合スコア8

0グッド

1クリップ

投稿2018/10/12 10:37

編集2018/10/13 02:21

0

1

ディープラーニングという言葉の定義について質問です。

今回doc2vecを使用し、類似チケットの算出を行いました。

□学習の流れ
学習データ→形態素分析→doc2vecで学習→(例)学習データ1と類似している学習データを算出

上記の流れで行った場合、以下の認識であっていますでしょうか。
(1)doc2vecは教師なし学習である
(2)doc2vecは機械学習のなかでも、教師なし学習をしており、グルーピングを行なっている。
(3)doc2vecはディープラーニングをしているわけではない(隠れ層は1である)
→ディープラーニングの定義や、色々な人のブログなどを読んでもイマイチdoc2vecのアルゴリズムがどこに位置付けられるのかがわかりませんでした。

よろしくお願いします。

行動規範の内容に同意します

回答1件

0

(1)doc2vecは教師なし学習である

なにをもって教師なし学習とするかによります。が、少なくともアルゴリズムとしては教師あり学習を利用していると見た方がわかりやすいです。

教師ラベルを（人間が）用意しないという点では教師なしっぽいですが、解いているタスクそのものは

文脈＋文書idで単語を予測する
文書idを文脈に写像する

と教師あり学習だからです。

(2)doc2vecは機械学習のなかでも、教師なし学習をしており、グルーピングを行なっている。

クラスタリング等をしないとグループにはなりません。

やっていることは意味ベクトルの獲得です。

(3)doc2vecはディープラーニングをしているわけではない(隠れ層は1である)

同意。

→ディープラーニングの定義や、色々な人のブログなどを読んでもイマイチdoc2vecのアルゴリズムがどこに位置付けられるのかがわかりませんでした。

最初にword2vecが発見されたときは、「こうすると意味ベクトルの獲得みたいなことができる。理由はよくわからないが」という形で出てきました。

なので、理論的な位置づけは「謎」でした。

2014年からは、PMI(Pointwise Mutual Information,自己相互情報量)とword2vecやdoc2vecが理論的に等価ということが言われています。

参考：
Kazuma HASHIMOTO (橋本和真)
行列とニューラルネットが手をつなぐ - 武蔵野日記

なので、今はニューラルネットを用いてPMIを少ない計算コストで近似計算する手法として理解されていると思います。

目的は、自然言語表現の分散表現を獲得することです。word2vec, GloVe, fastTextなどが仲間です。

また、アルゴリズムは異なりますが、自然言語処理で用いられてきた潜在意味分析やトピックモデル系の手法とも関連する（同じような使いかたができるという意味において）とみなせるでしょう。

投稿2018/10/12 19:18

編集2018/10/13 03:55

総合スコア30939

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ Python 3.xに関する質問

doc2vecの位置付けについて