groupby 上から３番目の値の取り方

実現したいこと

groupbyした際に上から３番目の列を取得したい

該当のソースコード

python
1import pandas as pd
2df=[['a',1],['a',2],['a',3],['a',5],['b',4],['b',8]]
3df=pd.DataFrame(df)
4df=df.rename(columns={0:'product',1:'price'})

試したこと

df_gr= df.groupby('product').head(3)
df_gr= df_gr.groupby('product').tail(1)

このやり方だと'product'.'b'にはデータがないのでNaNが入ってほしいが
上から２番目の列を取り出してしまう

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

meg_

2023/05/28 01:19

> groupbyした際に上から３番目の列を取得したい「上から３番目の列」とは何のことでしょうか？列ではなく行の意味でしょうか？質問のコードの例ですと欲しい結果は何になりますか？

yamato0565

2023/05/28 01:51

すいません行のことです質問の行だと 'product'.'a'はgroupbyした際の上から３番目の行で priceが3の行で product'bは上から３番目の行データがないので欠損値などにしたいです

行動規範の内容に同意します

回答2件

ベストアンサー

python
1import pandas as pd
2import numpy as np
3
4df=[['a',1],['a',2],['a',3],['a',5],['b',4],['b',8]]
5df=pd.DataFrame(df)
6df=df.rename(columns={0:'product',1:'price'})
7
8#
9N = 3
10df_gr = df.groupby('product').head(N).groupby('product')\
11          .agg({'price': lambda x: x.tail(1) if len(x) >= N else np.nan})\
12          .reset_index()
13
14print(df_gr)
15
16#   product  price
17# 0       a    3.0
18# 1       b    NaN

投稿2023/05/28 04:45

編集2023/05/28 04:53

melian

総合スコア21727

'product'.'b'にはデータがないのでNaNが入ってほしい
後から追加する方法のコードです。

Python
1import pandas as pd
2import numpy as np
3
4df=[['a',1],['a',2],['a',3],['a',5],['b',4],['b',8]]
5df=pd.DataFrame(df)
6df=df.rename(columns={0:'product',1:'price'})
7
8result = df.groupby('product').nth(2).reset_index()
9for i in df['product'].unique():
10    if not i in result['product'].array:
11        result = pd.concat([result, pd.DataFrame({'product':[i], 'price':[np.nan]})])
12result = result.reset_index(drop=True)
13print(result)
14#   product  price
15# 0       a    3.0
16# 1       b    NaN