前提・実現したいこと
Structural Topic Model(STM)でトピック抽出を行っています. (R言語で実装)
最適なトピック数を決める方法で質問があります.
searchK関数の出力結果で数値とグラフが出力されるのですが
この結果からどのように最適なトピック数を判断したら良いか分かりません.
どのようにトピック数を決定したらよいか教えていただきたいです.
該当のソースコード
R
1kResult <- searchK(out$documents, out$vocab, K=c(7,8,9,10), prevalence=~rating+s(day), data=meta) 2kResult$results 3plot(kResult)
出力結果
R
1> kResult$results 2 K exclus semcoh heldout residual bound lbound em.its 31 7 8.937433 -52.95924 -7.80857 9.328384 -23391733 -23391725 17 42 8 9.090138 -58.20191 -7.793394 8.950438 -23337625 -23337614 20 53 9 9.168978 -61.09091 -7.781923 8.710382 -23296459 -23296447 25 64 10 9.256421 -61.51863 -7.764806 8.504863 -23247891 -23247876 55
疑問点
論文を読みましたが,以下の値が何を表しているのか理解できませんでした。
exclus:Exclusivity of each model.
semcoh:Semantic coherence of each model.
heldout:Heldout likelihood for each model.
residual:Residual for each model.
bound:Bound for each model.
lbound:lbound for each model.
em.its:Total number of EM iterations used in fiting the model.
あなたの回答
tips
プレビュー