pandas groupby での条件抽出の結果について

###前提・実現したいこと
Python の pandas groupbyにてデータの集計方法の質問です。groupby でグループ内のある条件を満たす最小値が欲しいです。その際に、条件を満たさないグループの項目も残したいのですが、どのように書くのがpandasのイディオムなのでしょうか？自分の例ではout3では求められましたが冗長な書き方と感じましたので質問しています。out2のような書き方ではできないのでしょうか？

実行したこと

python
1import pandas as pd
2df = pd.DataFrame(
3    {'id': list('aaabbcccc'),
4     'val': [1,2,3,1,2,1,2,4,5]})
5
6out1 = df[df.val >= 3].groupby('id').count()

実行結果

>>> out1 
    val  
id       
a     3  
c     4

欲しい結果（NaNを入れたいので'float64'でOK）

    val  
id       
a     3.0  
b     NaN
c     4.0

試したこと

>>> out2 = df.groupby('id')[df.val >= 3].min()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Anaconda3\lib\site-packages\pandas\core\base.py", line 337, in __getitem__
    % str(bad_keys)[1:-1])
KeyError: 'Columns not found: False, True'

>>> out3 = pd.DataFrame(index = df.set_index('id').index.unique()).join(out1)
>>> out3
    val
id
a   3.0
b   NaN
c   4.0

実行環境

>>> import sys; sys.version
'3.5.2 |Anaconda custom (64-bit)| (default, Jul  5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)]'
>>> pd.__version__
'0.19.2'

行動規範の内容に同意します

回答1件

ベストアンサー

groupby().apply() を使用することで、out2っぽく記述できると思います。

Python
1import pandas as pd
2df = pd.DataFrame(
3    {'id': list('aaabbcccc'),
4     'val': [1,2,3,1,2,1,2,4,5]})
5
6out1 = df.groupby('id').apply(lambda d: d[d.val >= 3]['val'].min())
7print(out1)
8#=> id
9#   a    3.0
10#   b    NaN
11#   c    4.0
12#   dtype: float64

投稿2017/05/17 07:35

magichan

総合スコア15898

lump333

2017/05/18 01:25 編集

apply() ですね。ありがとうございました。実際のdfのcolumnは多いので次のように変更しても動きました。 df.groupby('id').apply(lambda d: d['val'][d.val >= 3].min()) For DataFrame output: df.groupby('id').apply(lambda d: d[['val']][d.val >= 3].min())

行動規範の内容に同意します