LDAを実行したいのですが
以下のエラーが表示されます。何が原因か教えてください。
やりたいことのイメージとしては、フォルダの各テキストファイルのトピックを知りたいといった感じです。
ソースコードは以下の通りです(LDA.py)。
python
1import os 2import codecs as cd 3import gensim 4from janome.tokenizer import Tokenizer 5from gensim import corpora, models, similarities 6 7folder = 'aaa' 8filenames = os.listdir(folder) 9for filename in filenames : 10 datafile = open(folder+'/'+filename, encoding='utf-8') 11 lines = datafile.readlines() 12 13t = Tokenizer() 14wvs = [] 15 16for i, line in enumerate(lines): 17 word_vector = [] 18 19 20 if len(line)<30: 21 continue 22 else: 23 tokens = t.tokenize(line) 24 25 for token in tokens: 26 if token.part_of_speech[:2] == '名詞': 27 word_vector += [token.base_form] 28 29 30 wvs += [word_vector] 31 32dictionary = corpora.Dictionary(wvs) 33dictionary.filter_extremes(no_below=2, no_above=0.3) 34dictionary.save_as_text('dict.txt') 35 36 37corpus = [dictionary.doc2bow(text) for text in wvs] 38corpora.MmCorpus.serialize('cop.mm', corpus) 39 40 41dictionary = gensim.corpora.Dictionary.load_from_text('dict.txt') 42corpus = corpora.MmCorpus('cop.mm') 43 44 45topic_N = 20 46lda = gensim.models.ldamodel.LdaModel(corpus=corpus, num_topics=topic_N, id2word=dictionary) 47 48for i in range(topic_N): 49 print('TOPIC:', i, '__', lda.print_topic(i))
環境はwindows10,ubuntu16.04です。
エラーメッセージの全文を貼り付けていただけませんか。どこでエラーが起きているのか人で確かめるのは大変です。またコードを```で囲んでください。インデントが崩れて読めません。
回答1件
あなたの回答
tips
プレビュー