doc2vecについて調べています。gensimのdoc2vecのtutorialを試しました。
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb
doc2vecの論文も斜め読みしました。
https://cs.stanford.edu/~quocle/paragraph_vector.pdf
doc2vecは、訓練データ(コーパス)内にある単語をone-hot vectorにし、それをモデルを入力し、モデルにパラメータを学習させるものだと思っています。
しかし、学習後のモデルにコーパスにない単語を入力したいときはどうすれば良いのでしょうか。その単語は、訓練時に定めたone-hot vectorでは表現できないように思います。
(訓練外の単語を入力することが可能かどうかについては、可能ということはわかっています。論文にもそう書いてありましたし、gensimのmodel.infervector()でもなにかしらのベクトルが得られました。しかし、なぜ可能かを僕は理解できていないません。)
どなたかヒントを与えていただけると幸いです。
読んでいただきありがとうございました。
論文を読み返してみましたが、「訓練外の単語を入力することが可能かどうかについては、可能ということはわかっています。論文にもそう書いてありました」というのは具体的にどういった表現で、どこにかいてありますか?