cannot compute lda over an empty collection (no terms)

LDAを実行したいのですが
以下のエラーが表示されます。何が原因か教えてください。

やりたいことのイメージとしては、フォルダの各テキストファイルのトピックを知りたいといった感じです。

ソースコードは以下の通りです(LDA.py)。

python
1import os
2import codecs as cd
3import gensim
4from janome.tokenizer import Tokenizer
5from gensim import corpora, models, similarities
6
7folder = 'aaa'
8filenames = os.listdir(folder)
9for filename in filenames :
10    datafile = open(folder+'/'+filename, encoding='utf-8')
11    lines = datafile.readlines()
12
13t = Tokenizer()
14wvs = []
15
16for i, line in enumerate(lines):
17    word_vector = []
18
19   
20    if len(line)<30:
21        continue
22    else:
23        tokens = t.tokenize(line)
24 
25    for token in tokens:
26        if token.part_of_speech[:2] == '名詞':
27            word_vector += [token.base_form]
28
29    
30    wvs += [word_vector]
31
32dictionary = corpora.Dictionary(wvs)
33dictionary.filter_extremes(no_below=2, no_above=0.3)
34dictionary.save_as_text('dict.txt')
35
36
37corpus = [dictionary.doc2bow(text) for text in wvs]
38corpora.MmCorpus.serialize('cop.mm', corpus)
39
40
41dictionary = gensim.corpora.Dictionary.load_from_text('dict.txt')
42corpus = corpora.MmCorpus('cop.mm')
43
44
45topic_N = 20
46lda = gensim.models.ldamodel.LdaModel(corpus=corpus, num_topics=topic_N, id2word=dictionary)
47
48for i in range(topic_N):
49    print('TOPIC:', i, '__', lda.print_topic(i))

環境はwindows10,ubuntu16.04です。

mkgrei

2018/02/01 04:17

エラーメッセージの全文を貼り付けていただけませんか。どこでエラーが起きているのか人で確かめるのは大変です。またコードを```で囲んでください。インデントが崩れて読めません。

行動規範の内容に同意します

回答1件

ベストアンサー

python
1corpus = corpora.MmCorpus('cop.mm')
2
3topic_N = 20
4lda = gensim.models.ldamodel.LdaModel(corpus=corpus, num_topics=topic_N, id2word=dictionary)

理由はわかるのですが、データが無いので修正の仕方はわかりません。
上記のコードのところでcorpusが空だと、エラーが再現できます。

追記

python
1import os
2import codecs as cd
3import gensim
4from janome.tokenizer import Tokenizer
5from gensim import corpora, models, similarities
6
7folder = 'aaa'
8filenames = os.listdir(folder)
9lines = []
10for filename in filenames :
11    with open(folder+'/'+filename, encoding='utf-8') as datafile:
12        lines += datafile.readlines()

投稿2018/02/01 09:10

編集2018/02/02 11:19

mkgrei

総合スコア8560

grx72expo

2018/02/01 14:12

回答ありがとうございます。 corpusが空とはどういうことでしょうか？申し訳ございませんがご教授願います。あと、dictionary.filter_extremes(no_below=2, no_above=0.3) を削除したら実行できたのですが、これはテキストデータが少ないことが原因なのでしょうか？