下記の結果をPandasを使用して格納し、エクセルに落としたいです。
利用目的としては、複数同じ単語があるのでユニークにして数を計算したいです。
単語名 件数
コロナ 405
マスク 2
#検索キーワード q = "#花粉 exclude:retweets" #データ取得 tweet_doc =[] for tweet in tweepy.Cursor(api.search, q=q,tweet_mode="extended").items(500): tweet_doc.append(tweet.full_text) import MeCab def sep_by_mecab(text): m = MeCab.Tagger ('-Ochasen') node = m.parseToNode(text) word_list=[] while node: hinshi = node.feature.split(",")[0] if hinshi in ["名詞","動詞","形容詞"]: origin = node.feature.split(",")[6] if origin not in ["*","する","いる","なる","てる","れる","ある","こと","もの","HTTPS","花粉","花粉症","症"] : word_list.append(origin) node = node.next return word_list documents=[] for t in tweet_doc: documents.append(set(sep_by_mecab(t))) import pyfpgrowth import pprint #分析 patterns = pyfpgrowth.find_frequent_patterns(documents, 30) #降順に並び替えて見やすく表示 sorted_patterns = sorted(patterns.items(),reverse=True,key=lambda x:x[1]) pprint.pprint(sorted_patterns)
結果
[(('マスク',), 169),
(('コロナ',), 94),
(('飛ぶ',), 72),
(('ウイルス', 'コロナ'), 67),
(('コロナ', 'マスク'), 67),
(('ウイルス', 'マスク'), 57),
(('対策',), 53),
(('日',), 51),
(('鼻',), 51),
(('ウイルス', 'コロナ', 'マスク'), 51),
(('目',), 44),
(('今日',), 44),
(('の',), 40),
(('アレルギー',), 40),
(('くる',), 39),
(('スギ',), 39),
(('でる',), 38),
(('コロナ', '新型'), 38),
(('インフルエンザ', 'マスク'), 38),
(('月',), 37),
(('鼻水',), 36),
(('ない',), 36),
(('インフルエンザ', 'ウイルス'), 36),
(('インフルエンザ', 'コロナ'), 36),
(('ん',), 35),
(('飛散',), 35),
(('でる', '飛ぶ'), 35),
(('できる',), 34),
(('くしゃみ',), 33),
(('ウイルス', '新型'), 32),
(('ウイルス', 'コロナ', '新型'), 31),
(('枚',), 30),
(('インフルエンザ', 'コロナ', 'マスク'), 30)]
===================
上記の結果をPndasで下記のように格納したいです!
単語名 件数
コロナ 405
マスク 2
回答2件
あなたの回答
tips
プレビュー