前提・実現したいこと
現在、リアルタイムにページのクローリングをしながらその都度TF-IDF値などで文書間の類似度を求めたいと考えています。
具体的にはページAに、ページBへのリンクがあったとき、
ページBをスクレイピングしたのちに
ページAとページBの類似度を求めたいと考えています。
発生している問題
当然ですが、オリジナルのTF-IDFでは予め文書数$N$がわかっていて、その上で文書を解析します。
しかし、今回ではリアルタイムにスクレイピングしながら、その都度ページ間の類似度を求めたいと考えています。
質問
動的にクローリングしながら、TF-IDFを計算することは可能でしょうか。
また、このようなことは、動的TF-IDF + cos類似度 または Doc2Vecで可能なのでしょうか。
ヒントをいただけると幸いです。
回答1件
あなたの回答
tips
プレビュー