質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.62%

pandas groupby 集計した結果で得られた値を使用したい

解決済

回答 2

投稿

  • 評価
  • クリップ 1
  • VIEW 284

EscFR

score 18

前提・実現したいこと

前提:hoge国とfoo国全員の名前が入った名簿があり、天才の人にはフラグが立っているとします

df.groupby(["国名"], as_index=False)["名前", "flag"].agg({"id": ['count'],"flag": ["count"])


上記コードを実行した結果(①)

国名 人口 flag
hoge 100 50
foo 200 20

実現したい形(②)

国名 人口 flag 天才の割合
hoge 100 50 0.5
foo 200 20 0.1

上記の様に割合を入れたいです。かつ、①の集計をデータフレームにして、それを②にするのではなく、
一つのコードで②の形にしたいです。

試したこと

def make_rate(population, target):
    return target / population


上記のような関数を作ってgroupby•aggを使用すれば行けるかと思ったのですが、引数が2つある時指定の仕方がわかりませんでした。

よろしくお願い致します。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+1

質問のコード、色々と嘘がありませんか?

df.groupby(["国名"], as_index=False)["名前", "flag"] とカラムを["名前"と"flag"]の2つにフィルタリングしているが、 .agg() では "id" と "flag" になっている
・更に結果の表のカラム名は '人口'と'flag' になっている
・ "flag" : "count" の結果はデータ数が得られるので "flag"の数にはならないはずだが、結果は "flag"の数になっている
・結果は MultuIndexになるはずだがなっていない、

何を行いたいのかは分かるのですが、できましたら正確な情報を記述していただきますようお願いします。

で、flagboolであるという前提で記述すると、今回の件は

・人口はわざわざ '名前': 'count' または 'id': 'count' でなくとも、 'flag': 'count' でも求まる
・flagの数は 'flag': 'count' ではなく 'flag': 'sum'となる
・flagの割合は 'flag': 'mean' で求まる

ので DataFrame.agg() ではなく Series.agg() を使って MultiIndexを回避しつつ dictデータでカラム名を設定すると

df.groupby(["国名"], as_index=False)['flag'].agg({'人口':'count', 'flag':'sum', '天才の割合':'mean'})


とシンプルに記述できるかと思います。

動作サンプル

import pandas as pd
import numpy as np
N = 10000
df = pd.DataFrame({
    '国名': np.random.choice(['hoge', 'foo'], N),
    'id': np.arange(N),
    '名前': np.arange(N).astype('str'),
    'flag': np.random.choice([True, False], N, p=[0.3, 0.7])
})
ret = df.groupby(["国名"], as_index=False)['flag'].agg({'人口':'count', 'flag':'sum', '天才の割合':'mean'})
print(ret)
#     国名    人口    flag     天才の割合
#0   foo  4947  1459.0  0.294926
#1  hoge  5053  1479.0  0.292697

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/06/24 07:22

    評価し忘れ失礼しました。
    丁寧に回答頂きありがとうございます。

    質問投げかける時も正確に記述するよう以後気をつけますm(_ _)m

    キャンセル

+1

以下のコードで元テーブルから割合のカラム作成を実現できると思います。
元テーブルと思われる形に対して同時に作成ではないですが、動作確認しました。
記載されているコードで①を得られなかったのですが(columnsを再現できませんでした)、①を得られているのであれば、apply以下を続けてかけば動くのではないかと思います。

def make_rate(x):
    return (x['flag']==1).sum() / len(x['人名'])

df.groupby(['国名']).apply(make_rate)

ちなみに、

①の集計をデータフレームにして、それを②にするのではなく、一つのコードで②の形にしたいです。

とありましたが、もし特に理由がなければ、➀の後に

df["天才の割合"]=df["flag"]/df["人口"] とした方が直感的でわかりやすいと思います。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.62%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る