前提・実現したいこと
トピックモデルを用いた文書分析を以下の参考記事に沿って行おうとしています。
参考記事
発生している問題・エラーメッセージ
参考記事では、題材として青空文庫の夏目漱石の作品を使ったと書いてありましたが、
前処理が肝心のコードに反映されていないので、データセットがどれくらい必要で、
ソースコードのどこに分析したいファイルをおけばいいのか見当がつきません。
また、引数のtitles
の具体例がないので、何を示しているのか、わかりません。
該当のソースコード
以下、参考記事より。
Python
1import gensim 2 3def make_lda_model(texts, titles): 4 dic = gensim.corpora.Dictionary(texts) 5 dic.filter_extremes(no_below=1, no_above=0.05) 6 dic.filter_n_most_frequent(100) 7 corpus = [dic.doc2bow(text) for text in texts] 8 lda = gensim.models.ldamodel.LdaModel(corpus=corpus, num_topics=TOPICS, id2word=dic) 9 # Topicの表示 10 for x in lda.show_topics(-1, 5): 11 print(x) 12 13 # 各文書の所属Topic 14 for t, s in zip(titles, lda[corpus]): 15 print(t, max(s, key=(lambda x:x[1])))
補足情報(FW/ツールのバージョンなど)
Python3.6
回答1件
あなたの回答
tips
プレビュー