前提
pythonでMeCabを用いたレビューにおける頻出単語集計を行っています。
実現したいこと
・CSVファイルにまとめられているレビューを解析し、そのレビューの中で多く使われている単語をランキングで集計したい。
発生している問題・エラーメッセージ
エラーメッセージはありませんが、ずっとプログラムが動いたままです。
該当のソースコード
python
1import csv 2import pandas as pd 3import MeCab 4import collections 5 6files = open(r"C:\Users\Yasu\AppData\Local\Programs\Python\Python310\特別演習\rakuten_review_alotof_text_October.csv",encoding="utf-8",errors="ignore") 7data = pd.read_csv(files) 8message = data["text"] 9messagelst = message.astype(str).tolist() 10messagestr = "".join(messagelst) 11 12 13mecab = MeCab.Tagger("-Ochasen")#-Ochasenという辞書でMeCabを用いた構文解析をするよ^^ 14 15node = mecab.parseToNode(messagestr) 16words=[] 17while node: 18 hinshi = node.feature.split(",")[0] 19 if hinshi in ["名詞","動詞","形容詞"]: 20 origin = node.feature.split(",")[6] 21 words.append(origin) 22 node = node.next 23""" 24「node.feature」には単語の品詞などの情報がカンマ区切りで入っており、 250番目に品詞名、6番目に原型のデータがある。 26そこで、node.featureの0番目が名詞・動詞・形容詞だったらその6番目をとる 27 28というコード 29""" 30 31c = collections.Counter(words) 32print(c.most_common(20)) 33 34
試したこと
20分間ほど待ってみましたが、プログラムが終了する気配がありません。
補足情報(FW/ツールのバージョンなど)
windows11 , IDLE(3.10.2)
回答1件
あなたの回答
tips
プレビュー