Pythons　Pandasでエクセルに落とす方法

下記の結果をPandasを使用して格納し、エクセルに落としたいです。
利用目的としては、複数同じ単語があるのでユニークにして数を計算したいです。
単語名　件数　
コロナ　405
マスク　2

#検索キーワード
q = "#花粉 exclude:retweets"

#データ取得
tweet_doc =[]
for tweet in tweepy.Cursor(api.search, q=q,tweet_mode="extended").items(500):
tweet_doc.append(tweet.full_text)
import MeCab
def sep_by_mecab(text):
m = MeCab.Tagger ('-Ochasen')
node = m.parseToNode(text)

word_list=[]
while node:
hinshi = node.feature.split(",")[0]
if hinshi in ["名詞","動詞","形容詞"]:
origin = node.feature.split(",")[6]
if origin not in ["*","する","いる","なる","てる","れる","ある","こと","もの","HTTPS","花粉","花粉症","症"] :
word_list.append(origin)
node = node.next

return word_list
documents=[]
for t in tweet_doc:
documents.append(set(sep_by_mecab(t)))
import pyfpgrowth
import pprint

#分析
patterns = pyfpgrowth.find_frequent_patterns(documents, 30)

#降順に並び替えて見やすく表示
sorted_patterns = sorted(patterns.items(),reverse=True,key=lambda x:x[1])
pprint.pprint(sorted_patterns)

結果
[(('マスク',), 169),
(('コロナ',), 94),
(('飛ぶ',), 72),
(('ウイルス', 'コロナ'), 67),
(('コロナ', 'マスク'), 67),
(('ウイルス', 'マスク'), 57),
(('対策',), 53),
(('日',), 51),
(('鼻',), 51),
(('ウイルス', 'コロナ', 'マスク'), 51),
(('目',), 44),
(('今日',), 44),
(('の',), 40),
(('アレルギー',), 40),
(('くる',), 39),
(('スギ',), 39),
(('でる',), 38),
(('コロナ', '新型'), 38),
(('インフルエンザ', 'マスク'), 38),
(('月',), 37),
(('鼻水',), 36),
(('ない',), 36),
(('インフルエンザ', 'ウイルス'), 36),
(('インフルエンザ', 'コロナ'), 36),
(('ん',), 35),
(('飛散',), 35),
(('でる', '飛ぶ'), 35),
(('できる',), 34),
(('くしゃみ',), 33),
(('ウイルス', '新型'), 32),
(('ウイルス', 'コロナ', '新型'), 31),
(('枚',), 30),
(('インフルエンザ', 'コロナ', 'マスク'), 30)]
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
上記の結果をPndasで下記のように格納したいです！
単語名　件数　
コロナ　405
マスク　2

stdio

2020/02/06 03:37

> どのようにデータを格納して、Pnadasを使用すればいいかわからず困っています。個人的には自分で考えろとしか言えません。データの加工は他人に相談して解決出来るものではないです。まずはどのような情報が必要なのかを教えてください。 Twitterと言ってもそこには多くの情報があります。どんな情報をPnadasで外部ファイルとして吐き出したいのですか？

magichan

2020/02/06 04:19

ソースコードのインデントが崩れて表示されております。ソースコードはコードブロックのMarkdownで囲ってください。

magichan

2020/02/06 04:21

あと、 pprint.pprint(sorted_patterns) の出力結果を提示してください。（公開したくない情報はダミーのデータに置き換えて頂いて構いません）

pon244

2020/02/06 07:38

情報不足で申しございません。コード ``` #検索キーワード q = "#花粉 exclude:retweets" #データ取得 tweet_doc =[] for tweet in tweepy.Cursor(api.search, q=q,tweet_mode="extended").items(500): tweet_doc.append(tweet.full_text) import MeCab def sep_by_mecab(text): m = MeCab.Tagger ('-Ochasen') node = m.parseToNode(text) word_list=[] while node: hinshi = node.feature.split(",")[0] if hinshi in ["名詞","動詞","形容詞"]: origin = node.feature.split(",")[6] if origin not in ["*","する","いる","なる","てる","れる","ある","こと","もの","HTTPS","花粉","花粉症","症"] : word_list.append(origin) node = node.next return word_list documents=[] for t in tweet_doc: documents.append(set(sep_by_mecab(t))) import pyfpgrowth import pprint #分析 patterns = pyfpgrowth.find_frequent_patterns(documents, 30) #降順に並び替えて見やすく表示 sorted_patterns = sorted(patterns.items(),reverse=True,key=lambda x:x[1]) pprint.pprint(sorted_patterns) ``` 結果 [(('マスク',), 169), (('コロナ',), 94), (('飛ぶ',), 72), (('ウイルス', 'コロナ'), 67), (('コロナ', 'マスク'), 67), (('ウイルス', 'マスク'), 57), (('対策',), 53), (('日',), 51), (('鼻',), 51), (('ウイルス', 'コロナ', 'マスク'), 51), (('目',), 44), (('今日',), 44), (('の',), 40), (('アレルギー',), 40), (('くる',), 39), (('スギ',), 39), (('でる',), 38), (('コロナ', '新型'), 38), (('インフルエンザ', 'マスク'), 38), (('月',), 37), (('鼻水',), 36), (('ない',), 36), (('インフルエンザ', 'ウイルス'), 36), (('インフルエンザ', 'コロナ'), 36), (('ん',), 35), (('飛散',), 35), (('でる', '飛ぶ'), 35), (('できる',), 34), (('くしゃみ',), 33), (('ウイルス', '新型'), 32), (('ウイルス', 'コロナ', '新型'), 31), (('枚',), 30), (('インフルエンザ', 'コロナ', 'マスク'), 30)] ＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝上記の結果をPndasで下記のように格納したいです！単語名　件数　コロナ　405 マスク　2

magichan

2020/02/06 08:13

残念ながら、ここ（質問修正依頼）はMarkdownが使えませんので、編集ボタンより質問を再編集していただけたらと思います。

行動規範の内容に同意します

回答2件

ベストアンサー

こういうことでしょうか？

Python
1from collections import Counter
2import pandas as pd
3pd.set_option('display.unicode.east_asian_width', True)
4
5lines = [(('マスク',), 169),
6(('コロナ',), 94),
7(('飛ぶ',), 72),
8(('ウイルス', 'コロナ'), 67),
9(('コロナ', 'マスク'), 67),
10(('ウイルス', 'マスク'), 57),
11(('対策',), 53),
12(('日',), 51),
13(('鼻',), 51),
14(('ウイルス', 'コロナ', 'マスク'), 51),
15(('目',), 44),
16(('今日',), 44),
17(('の',), 40),
18(('アレルギー',), 40),
19(('くる',), 39),
20(('スギ',), 39),
21(('でる',), 38),
22(('コロナ', '新型'), 38),
23(('インフルエンザ', 'マスク'), 38),
24(('月',), 37),
25(('鼻水',), 36),
26(('ない',), 36),
27(('インフルエンザ', 'ウイルス'), 36),
28(('インフルエンザ', 'コロナ'), 36),
29(('ん',), 35),
30(('飛散',), 35),
31(('でる', '飛ぶ'), 35),
32(('できる',), 34),
33(('くしゃみ',), 33),
34(('ウイルス', '新型'), 32),
35(('ウイルス', 'コロナ', '新型'), 31),
36(('枚',), 30),
37(('インフルエンザ', 'コロナ', 'マスク'), 30)]
38
39# 単語毎に頻度を積算
40words = {}
41for line in lines:
42    for word in line[0]:
43        if word not in words:
44            words[word] = 0
45        words[word] += line[1]
46
47df = pd.DataFrame({'value':list(words.keys()), 'count':list(words.values())})
48df = df.sort_values('count', ascending=False).reset_index(drop=True)
49print(df.head())

Python
1# teratailアップ用
2import pytablewriter
3writer = pytablewriter.MarkdownTableWriter()
4writer.from_dataframe(df.head())
5writer.write_table()

value	count
コロナ	414
マスク	412
ウイルス	274
インフルエンザ	140
飛ぶ	107

投稿2020/02/06 09:01

編集2020/02/06 09:25

8524ba23

総合スコア38341

pon244

2020/02/06 10:51

ありがとうございます！！上記でできました！これをエクセルに落としたい場合はどうすればいいですか、、、泣？

8524ba23

2020/02/06 10:52

magichanさんの回答にあるとおり、to_excelを使ってください。

行動規範の内容に同意します

一応、sorted_patterns のデータをそのままpandasでDataFrame化してExcelに書き出すと、以下のようなExcelが得られますが・・・行いたいことは、これでしょうか？

import pandas as pd

df = pd.DataFrame(sorted_patterns, columns=['単語', '件数'])
df.to_excel('patterns.xlsx', index=None)

出力

投稿2020/02/06 08:46

magichan

総合スコア15898

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Pythons　Pandasでエクセルに落とす方法

関連した質問