pandas groupby　集計した結果で得られた値を使用したい

前提・実現したいこと

前提：hoge国とfoo国全員の名前が入った名簿があり、天才の人にはフラグが立っているとします

python
1df.groupby(["国名"], as_index=False)["名前", "flag"].agg({"id": ['count'],"flag": ["count"])

上記コードを実行した結果（①）

国名	人口	flag
hoge	100	50
foo	200	20

実現したい形（②）

国名	人口	flag	天才の割合
hoge	100	50	0.5
foo	200	20	0.1

上記の様に割合を入れたいです。かつ、①の集計をデータフレームにして、それを②にするのではなく、
一つのコードで②の形にしたいです。

試したこと

python
1def make_rate(population, target):
2    return target / population

上記のような関数を作ってgroupby•aggを使用すれば行けるかと思ったのですが、引数が2つある時指定の仕方がわかりませんでした。

よろしくお願い致します。

行動規範の内容に同意します

回答2件

ベストアンサー

質問のコード、色々と嘘がありませんか？

・df.groupby(["国名"], as_index=False)["名前", "flag"] とカラムを["名前"と"flag"]の２つにフィルタリングしているが、 .agg() では "id" と "flag"　になっている
・更に結果の表のカラム名は '人口'と'flag' になっている
・ "flag" : "count" の結果はデータ数が得られるので "flag"の数にはならないはずだが、結果は "flag"の数になっている
・結果は MultuIndexになるはずだがなっていない、

何を行いたいのかは分かるのですが、できましたら正確な情報を記述していただきますようお願いします。

で、flagがboolであるという前提で記述すると、今回の件は

・人口はわざわざ '名前': 'count' または 'id': 'count' でなくとも、 'flag': 'count' でも求まる
・flagの数は 'flag': 'count' ではなく 'flag': 'sum'となる
・flagの割合は 'flag': 'mean' で求まる

ので DataFrame.agg() ではなく Series.agg() を使って MultiIndexを回避しつつ dictデータでカラム名を設定すると

Python
1df.groupby(["国名"], as_index=False)['flag'].agg({'人口':'count', 'flag':'sum', '天才の割合':'mean'})

とシンプルに記述できるかと思います。

動作サンプル

Python
1import pandas as pd
2import numpy as np
3N = 10000
4df = pd.DataFrame({
5    '国名': np.random.choice(['hoge', 'foo'], N),
6    'id': np.arange(N),
7    '名前': np.arange(N).astype('str'),
8    'flag': np.random.choice([True, False], N, p=[0.3, 0.7])
9})
10ret = df.groupby(["国名"], as_index=False)['flag'].agg({'人口':'count', 'flag':'sum', '天才の割合':'mean'})
11print(ret)
12#     国名    人口    flag     天才の割合
13#0   foo  4947  1459.0  0.294926
14#1  hoge  5053  1479.0  0.292697

投稿2020/06/09 01:34

magichan

総合スコア15898

EscFR

2020/06/23 22:22

評価し忘れ失礼しました。丁寧に回答頂きありがとうございます。質問投げかける時も正確に記述するよう以後気をつけますm(_ _)m

行動規範の内容に同意します

以下のコードで元テーブルから割合のカラム作成を実現できると思います。
元テーブルと思われる形に対して同時に作成ではないですが、動作確認しました。
記載されているコードで①を得られなかったのですが（columnsを再現できませんでした）、①を得られているのであれば、apply以下を続けてかけば動くのではないかと思います。

Python3
1def make_rate(x):
2    return (x['flag']==1).sum() / len(x['人名'])
3
4df.groupby(['国名']).apply(make_rate)

ちなみに、

①の集計をデータフレームにして、それを②にするのではなく、一つのコードで②の形にしたいです。

とありましたが、もし特に理由がなければ、➀の後に

df["天才の割合"]=df["flag"]/df["人口"] とした方が直感的でわかりやすいと思います。

投稿2020/06/08 15:36

編集2020/06/08 21:39

kabayan55

総合スコア389

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！