Rのldaパッケージにて、結果を単語ではなく、単語のインデックスで出力させたい

今LDAのプログラムを作っているところなのですが、結果が全て単語で出てくる仕様になっているようです。そこを単語ではなくvocabのインデックスで出力させたいのですが、どうしたら良いかわかる方いらっしゃいましたら教えていただけないでしょうか。

LDAパッケージのサイト

R
1コード
2result <- lda.collapsed.gibbs.sampler(documents, k, vocab,
3                                      25,  # 繰り返し数
4                                      0.1, # ディリクレ過程のハイパーパラメータα
5                                      0.1, # ディリクレ過程のハイパーパラメータη
6                                      compute.log.likelihood=TRUE)
7
8
9top.words <- top.topic.words(result$topics, 30, by.score = TRUE)
10print(top.words)

出力結果が以下

結果を単語ではなく、単語ベクトル(vocab)のインデックスで取得したいです。

今のところ思いつく方法

単純に出力結果の単語をひとつひとつvocabと比べてインデックスを探していくという方法です。

他にもっとスマートなやり方、出力時にインデックスも同時に出す方法などがありましたら教えてください。

KojiDoiさん

R
1コード
2top.topic.words(result$topics, 5, by.score = TRUE)
3
4top.topic.documents(result$document_sum,num.documents = 5, alpha = 0.1)

この二つの結果が以下です。

自分がやりたいのは例えば左上の"多く"という単語のインデックスを取得したいということです。
理想はvocab[136]=="多く"ということです。ただ実際はvocab[136]は違う単語を指していました。

KojiDoi

2020/10/17 16:32

ドキュメントには、 > For top.topic.documents, a num.documents × K integer matrix where each column contains the top documents for that topic. The entries in the matrix are column-indexed references into document_sums. とありますが、そうではない何かをやりたいのでしょうか。

oika77

2020/10/18 01:49

すみません。ありがとうございます！ただ英語があまり理解できず自分で試してみましたが、多分自分がやりたいことではないと思います。やはり出力結果の単語をひとつひとつvocabの単語と比べてインデックスを調べるしかないのでしょうか。

行動規範の内容に同意します

回答1件

ベストアンサー

indexを得る手段は、素直に考えるとgrep()ですね。

> a<-c("a","c","b","d","e")
> sapply(c("a","b","d"), function(x){return(grep(x, a))})
a b d 
1 3 4

投稿2020/10/18 13:58

KojiDoi

総合スコア13692

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Rのldaパッケージにて、結果を単語ではなく、単語のインデックスで出力させたい

今のところ思いつく方法

KojiDoiさん

関連した質問