トピックモデルを用いた文書分析のコードに関する疑問点

前提・実現したいこと

トピックモデルを用いた文書分析を以下の参考記事に沿って行おうとしています。
参考記事

発生している問題・エラーメッセージ

参考記事では、題材として青空文庫の夏目漱石の作品を使ったと書いてありましたが、
前処理が肝心のコードに反映されていないので、データセットがどれくらい必要で、
ソースコードのどこに分析したいファイルをおけばいいのか見当がつきません。

また、引数のtitlesの具体例がないので、何を示しているのか、わかりません。

該当のソースコード

以下、参考記事より。

Python
1import gensim
2
3def make_lda_model(texts, titles):
4  dic = gensim.corpora.Dictionary(texts)
5  dic.filter_extremes(no_below=1, no_above=0.05)
6  dic.filter_n_most_frequent(100)
7  corpus = [dic.doc2bow(text) for text in texts]
8  lda = gensim.models.ldamodel.LdaModel(corpus=corpus, num_topics=TOPICS, id2word=dic)                                                                                                                             
9  # Topicの表示
10  for x in lda.show_topics(-1, 5):
11    print(x)
12
13  # 各文書の所属Topic
14  for t, s in zip(titles, lda[corpus]):                                                                                                                                                                           
15    print(t, max(s, key=(lambda x:x[1])))

補足情報（FW/ツールのバージョンなど）

Python3.6

wwbQzhMkhhgEmhU

2018/10/14 22:07

書いた本人に聞かないと分からないのでしょうが、多分青空文庫にある夏目漱石の全作品とかじゃないかと思います。それらを形態素解析して諸々した結果を作品ごとにtextsに入れてるんじゃないでしょうか。

退会済みユーザー

2018/10/15 05:43

ご質問いただきましてありがとうございます。もしご存知であれば、このコードにこだわりはないので、似たようなトピックモデルを用いた分析に関する参考サイトなどを教えていただけますと助かります。

wwbQzhMkhhgEmhU

2018/10/15 10:14

gensim mecabで検索すれば出てきそうな気がします。まぁ別に夏目漱石でも形態素解析して自立語だけ取れば問題ないと思いますが…

行動規範の内容に同意します

回答1件

ベストアンサー

データセットがどれくらい必要

やりたいことによりますが、分析対象の文書群にどのようなトピックで構成されているのかを明らかにしたいのであれば、それほどのボリュームは必要ありません。一方、あらかじめ学習したモデルに未知の文章を適用するような使い方をする場合は、それなりのボリュームが必要です。
質問に記載の参考記事は、gensimの使い方を示すことが目的なので、特定の小説（例えば、坊ちゃん）のみであろうと、複数の小説であろうと何らかの結果は得られるかと思います。
個人的な経験からすると、ある程度似たジャンルを扱った文書を扱う場合は意外を少ないボリュームでも役に立つモデルになります。なのでご自身が頻繁に閲覧しているブログなどを対象にしたほうが結果に手触り感が出ていいかと思います。