pythonのpandas(dataframe)の処理で困っています。

やりたいこと

以下のデータフレーム１をデータフレーム２の状態にしたい

データフレーム１(df1)

name	money	type
A	100	1
A	150	2
A	50	3
B	0	2
B	90	4
C	20	1
C	150	5

データフレーム２(df2)

name	total_money	count
A	300	3
B	90	2
C	170	2

※nameは重複なし
※total_moneyはnameを軸にしたmoneyの合計
※countはnameを軸にしたmoneyのカウント
※total_moneyもcountも対象はtypeが1と2ものだけで、他は除外

考えていたこと・・

functions = ['count', 'sum']
df2= df1.groupby('name')['money'].agg(functions)

これだと計算に入れたくないtypeも対象となってしまう。

条件

type = ['1', '2']のような形で処理したい。
理想は新しいデータフレームを作成するときにif文とかで分岐できると良い。
かなりデータ件数が多いので、typeが対象外の行を削除とかは難しい。
df1には記載ない列も多数ある

　df2でもその記載なき列も2列だけ使用する

meg_

2020/01/09 14:16

「※countはname2を軸にしたmoneyのカウント」のname2とは何でしょうか？

etoshhy

2020/01/09 15:10

失礼しました。nameの間違いでした。

行動規範の内容に同意します

回答1件

ベストアンサー

typeの値によってフィルタリングを行った上で `groupby.agg()`` をするとよいのではないでしょうか

Python
1import pandas as pd
2import io
3
4csv = """
5name,money,type
6A,100,1
7A,150,2
8A,50,3
9B,0,2
10B,90,4
11C,20,1
12C,150,5
13"""
14
15df = pd.read_csv(io.StringIO(csv))
16
17
18target_type=[1,2]
19ret = df[df['type'].isin(target_type)].groupby('name').agg({'money':'sum', 'type':'count'})
20ret = ret.rename(columns={'money':'total_money', 'type':'count'})
21print(ret)
22#      total_money  count
23#name
24#A             250      2
25#B               0      1
26#C              20      1