MeCabを用いて特定の品詞を基本形で分かち書きするコードを動かしているのですが、一向に処理が終わりません。
かれこれ5時間ほど待っているのですが処理が終わらず、何かコードに問題があるのではないかと思い質問させていただきます。
tsvファイルは500kbほどで、重い原因にはなっていないとは思います。他のコードで同一のtsvファイルを用いた際にはサクサク動いております。
何か動作を軽くする改編や、問題があればその指摘をお願いいたします。
該当コード
with open("jurycomment2.tsv",mode='r',encoding='utf-8') as f: # reports.tsvには一行に口コミID,口コミがtab区切りで保存されている reader = csv.reader(f, delimiter="\t") for report_id, report in reader: words = [] node = mt.parseToNode(report) while node: if node.feature.split(",")[0] == u"名詞": words.append(node.surface) elif node.feature.split(",")[0] == u"形容詞": words.append(node.feature.split(",")[6]) elif node.feature.split(",")[0] == u"動詞": words.append(node.feature.split(",")[6]) node = node.next stopword = [] words2 = [token for token in words if token not in stopword] # wordsが文章の単語のリスト,tagsには文章IDを指定 reports.append(TaggedDocument(words=words2, tags=[report_id]))
回答1件
あなたの回答
tips
プレビュー