【pandas】groupby後に複数の値をreturnする関数をapplyしたときの結果を配列ではなく複数のれるで得たい

前提

Python3
Jupyter notebook
pandas

実現したいこと

次のようなPandasのDataFrameを持っていて

data1	data2	data3	group
100	110	120	1
130	140	150	1
160	170	180	1
190	200	210	2
220	230	240	2
250	260	270	2
280	290	300	2
310	320	330	3
340	350	360	3

これに対し

python
1def hoge_func(group)
2    ・・・
3    return num1、num2、num3
4result = df.groupby('group').apply(hoge_func)

としました。
hoge_funcは見ての通りdata1、data2、data3の3つの値を使って
新しくnum1、num2、num3を返す関数です。

このとき下のようにresultがpandasのSeriesの形式になってしまい、
一つの列にnum1、num2、num3がタプルとして格納されてしまいます。

index	0
1	(100,200,300)
2	(400,500,600)
3	(700,800,900)

num1、num2、num3を別々の列とした一つのDataFrameを得るにはどうすればよいでしょうか。
ついでにそのDataFrameの列名もnum1、num2、num3としたいのですが
どなたか教えていただけないでしょうか。

試したこと

できてしまったSeriesにたいして、

python
1result.apply(pd.Series)

として改めてDataFrameにすることはできたのですが、
この場合どの時点で列名前を指定するのか分かりませんでした。
あとから.renameで列名を変えるのでもいいのですが、
せっかくならもっとスマートに結果の出力の時点で列名付きのDataFrameを得られないのかなと思いました。

行動規範の内容に同意します

回答2件

ベストアンサー

applyする関数で、pandas.Series を返すようにすればいいです。
Seriesのindexが、出来上がるデータフレームの列名になります。

python
1def hoge_func(group)
2    ...
3    return pd.Series([num1, num2, num3],
4                     index=['num1', 'num2', 'num3'])
5
6result = df.groupby('group').apply(hoge_func)

投稿2022/10/12 13:20

bsdfan

総合スコア4899

beluga00nm

2022/10/17 10:44

とてもシンプルな解決方法をありがとうございます！まるほど、returnの時点でseries形式にしてしまえばよかったのですね。

行動規範の内容に同意します

python
1result = [g.filter(regex='^data', axis=1)
2           .rename(columns=lambda x: x.replace('data', 'num'))
3           .reset_index(drop=True)
4          for _, g in df.groupby('group')]
5
6print(len(result))
7print(type(result[0]))
8print(result[0])
9print(result[1])
10print(result[2])
11
12#
133
14<class 'pandas.core.frame.DataFrame'>
15
16   num1  num2  num3
170   100   110   120
181   130   140   150
192   160   170   180
20
21   num1  num2  num3
220   190   200   210
231   220   230   240
242   250   260   270
253   280   290   300
26
27   num1  num2  num3
280   310   320   330
291   340   350   360