質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
GROUP BY

GROUP BYとはSQL文のひとつで、SELECT文において特定の列の値が等しい行ごとに表をグループ化します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

2174閲覧

pandas groupby 集計した結果で得られた値を使用したい

EscFR

総合スコア18

GROUP BY

GROUP BYとはSQL文のひとつで、SELECT文において特定の列の値が等しい行ごとに表をグループ化します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

1クリップ

投稿2020/06/08 13:26

前提・実現したいこと

前提:hoge国とfoo国全員の名前が入った名簿があり、天才の人にはフラグが立っているとします

python

1df.groupby(["国名"], as_index=False)["名前", "flag"].agg({"id": ['count'],"flag": ["count"])

上記コードを実行した結果(①)

国名人口flag
hoge10050
foo20020

実現したい形(②)

国名人口flag天才の割合
hoge100500.5
foo200200.1

上記の様に割合を入れたいです。かつ、①の集計をデータフレームにして、それを②にするのではなく、
一つのコードで②の形にしたいです。

試したこと

python

1def make_rate(population, target): 2 return target / population

上記のような関数を作ってgroupby•aggを使用すれば行けるかと思ったのですが、引数が2つある時指定の仕方がわかりませんでした。

よろしくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

質問のコード、色々と嘘がありませんか?

df.groupby(["国名"], as_index=False)["名前", "flag"] とカラムを["名前"と"flag"]の2つにフィルタリングしているが、 .agg() では "id" と "flag" になっている
・更に結果の表のカラム名は '人口'と'flag' になっている
"flag" : "count" の結果はデータ数が得られるので "flag"の数にはならないはずだが、結果は "flag"の数になっている
・結果は MultuIndexになるはずだがなっていない、

何を行いたいのかは分かるのですが、できましたら正確な情報を記述していただきますようお願いします。

で、flagboolであるという前提で記述すると、今回の件は

・人口はわざわざ '名前': 'count' または 'id': 'count' でなくとも、 'flag': 'count' でも求まる
・flagの数は 'flag': 'count' ではなく 'flag': 'sum'となる
・flagの割合は 'flag': 'mean' で求まる

ので DataFrame.agg() ではなく Series.agg() を使って MultiIndexを回避しつつ dictデータでカラム名を設定すると

Python

1df.groupby(["国名"], as_index=False)['flag'].agg({'人口':'count', 'flag':'sum', '天才の割合':'mean'})

とシンプルに記述できるかと思います。

動作サンプル

Python

1import pandas as pd 2import numpy as np 3N = 10000 4df = pd.DataFrame({ 5 '国名': np.random.choice(['hoge', 'foo'], N), 6 'id': np.arange(N), 7 '名前': np.arange(N).astype('str'), 8 'flag': np.random.choice([True, False], N, p=[0.3, 0.7]) 9}) 10ret = df.groupby(["国名"], as_index=False)['flag'].agg({'人口':'count', 'flag':'sum', '天才の割合':'mean'}) 11print(ret) 12# 国名 人口 flag 天才の割合 13#0 foo 4947 1459.0 0.294926 14#1 hoge 5053 1479.0 0.292697

投稿2020/06/09 01:34

magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

EscFR

2020/06/23 22:22

評価し忘れ失礼しました。 丁寧に回答頂きありがとうございます。 質問投げかける時も正確に記述するよう以後気をつけますm(_ _)m
guest

0

以下のコードで元テーブルから割合のカラム作成を実現できると思います。
元テーブルと思われる形に対して同時に作成ではないですが、動作確認しました。
記載されているコードで①を得られなかったのですが(columnsを再現できませんでした)、①を得られているのであれば、apply以下を続けてかけば動くのではないかと思います。

Python3

1def make_rate(x): 2 return (x['flag']==1).sum() / len(x['人名']) 3 4df.groupby(['国名']).apply(make_rate)

ちなみに、

①の集計をデータフレームにして、それを②にするのではなく、一つのコードで②の形にしたいです。

とありましたが、もし特に理由がなければ、➀の後に

df["天才の割合"]=df["flag"]/df["人口"] とした方が直感的でわかりやすいと思います。

投稿2020/06/08 15:36

編集2020/06/08 21:39
kabayan55

総合スコア389

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問