pandasのDataframeに入った辞書型データにアクセスしたい

Slackのログを解析しています。ログファイルはjson形式で、pandasのDataframeとして読み込むとreactionsが次のような形になりました。

python3
1dfMa21 = pd.io.json.json_normalize(LecMa21)
2dfMa21reacs = dfMa21[['ts','reactions']]

リアクションの名前、リアクションした人のリスト、リアクション数が一つの辞書項目となって、これがあるメッセージに対するリアクションの種類の数だけリストとして入っています。
このリストを分解するために次のようなコードを書きました。

python3
1tmp = dfMa21reacs.reactions.apply(pd.Series).stack().reset_index(level=1, drop=True).rename('reactions')
2dfMa21reacs = dfMa21.loc[:,['ts']].join(tmp).reset_index(drop=True)

tsはタイムスタンプなのでtsが同じ項目は同じメッセージを表します。リストが分解され、同じメッセージに付いていたリアクションが一つずつ見えるようになりました。

問題はここからです。ここで例えば'name':'yakunitatta'となっているデータを取り出す操作を行いたいのですが、どうしたらいいかわかりません。辞書型データにkeyによってアクセスする方法を調べて以下のようにしたのですが、KeyError: 'name'になってしまいます。

python3
1dfMa21useful = dfMa21reacs[dfMa21reacs.reactions['name'] == 'yakunitatta']

pandasのデータ項目として辞書型データが入っているというケースが見つけられず、質問に至りました。正しい方法、あるいはもっと効率のいい方法があれば教えていただけると幸いです。

行動規範の内容に同意します

回答2件

ベストアンサー

以下のようにnameも列に分離すると処理しやすいかと思います。

Python
1import pandas as pd
2
3df = pd.DataFrame({'ts':[1,1],'reactions':[{'name':'a','users':['u1','u2']}, {'name':'b','users':['u3','u4']}]})
4
5def func(row):
6    row['name'] = row.reactions['name']
7    row['users'] = row.reactions['users']
8    return row
9
10df = df.apply(func, axis=1).drop('reactions',axis=1)
11print(df)
12"""
13   ts name     users
140   1    a  [u1, u2]
151   1    b  [u3, u4]
16"""
17
18print(df[df['name'] == 'a'])
19"""
20   ts name     users
210   1    a  [u1, u2]
22"""

投稿2019/05/28 01:27

8524ba23

総合スコア38352

crossism

2019/05/28 02:08

回答ありがとうございます。 can110様のコードをそのままで実験し動くのを確認したあと、dfにわたしが使っているdataframeを代入して同じコードをprint(df)まで動かしてみたところ、 TypeError: ("'float' object is not subscriptable", 'occurred at index 6') となってしまいました。みたところ例として挙げていただいたdfとほとんど構造は変わらないはずなのですが、なぜfloat扱いになってしまっているのでしょうか。もしこちらもお分かりになることがあればアドバイスをいただけるとありがたいです。