Pandasデータフレームを加工し、別のデータフレームを作成したい

前提

最近仕事でPandasを使用している、Pandas初心者です。
簡単な操作はできるのですが、大きくデータを加工することが初めてでイマイチプログラムの書き方がわからない為teratailで質問しました。
とっかかりが掴めず、最初の処理以前の段階で止まってしまっています。知っている方にプログラムの書き方を教えていただきたいです。

データフレームの中身は質問の為少なくしていますが、実際のデータ量は3万行ほどの予定です。

実現したいこと

以下のデータフレームがあります。

国	英語問題数	英語正答数	国語問題数	国語正答数
Japan	20	8	30	26
America	20	18	30	4
Japan	20	12	30	28
Japan	20	17	30	25
America	20	19	30	18
America	20	16	30	20
Japan	NaN	NaN	30	30
Japan	20	13	30	25
China	20	16	30	24
America	20	20	NaN	NaN
Japan	20	5	30	25
Japan	20	14	30	25
America	20	15	30	20
Japan	20	8	30	18
America	NaN	NaN	30	7

上記のデータフレームを以下のデータフレームの形にまとめたいです。
具体的には１Seriesを国毎とし、人数、問題数、平均正答数、平均正答率、中央値、標準偏差の列を持つデータフレームを新たに作成したいです。

国	英語人数	英語問題数	英語平均正答数	英語平均正答率	国語人数	国語問題数	国語平均正答数	国語平均正答率
Japan	7	20	11	0.55	8	30	25.25	0.84
America	5	20	17.6	0.88	5	30	13.8	0.46
Total	13	20	13.9	0.7	14	30	22.7	0.7

※中央値、標準偏差の値も必要です。

考えたこと

新たにデータフレームを作る方法が分からず、手がかりがない状態なのですが、
おそらく最初の処理として国毎にグループ化するとうまくいきそうだと考え、関数を探しました。
ただ、その後でわからなくなってしまいました。

df.groupby()
df.median()
df.mean()
df.std()

元となるデータフレーム

Python
1import pandas as pd
2import numpy as np
3
4df = pd.DataFrame(
5    data=np.array([["Japan", 20, 8, 30, 26],
6                   ["America", 20, 18, 30, 4],
7                   ["Japan", 20, 12, 30, 28],
8                   ["Japan", 20, 17, 30, 25],
9                   ["America", 20, 19, 30, 18],
10                   ["America", 20, 16, 30, 20],
11                   ["Japan", "", "", 30, 30],
12                   ["Japan", 20, 13, 30, 25],
13                   ["China", 20, 16, 30, 24],
14                   ["America", 20, 20, "", ""],
15                   ["Japan", 20, 5, 30, 25],
16                   ["Japan", 20, 14, 30, 25],
17                   ["America", 20, 15, 30, 20],
18                   ["Japan", 20, 8, 30, 18],
19                   ["America", "", "", 30, 7]]),
20    columns=['国', '英語問題数', '英語正答数', '国語問題数', '国語正答数']
21             )

補足情報（FW/ツールのバージョンなど）

Windows10
Anaconda
Python 3.9.13
pandas 1.5.1

行動規範の内容に同意します

回答1件

ベストアンサー

groupby() + agg().

python
1import pandas as pd
2import numpy as np
3
4df = pd.DataFrame(
5    data=np.array([["Japan", 20, 8, 30, 26],
6                   ["America", 20, 18, 30, 4],
7                   ["Japan", 20, 12, 30, 28],
8                   ["Japan", 20, 17, 30, 25],
9                   ["America", 20, 19, 30, 18],
10                   ["America", 20, 16, 30, 20],
11                   ["Japan", "", "", 30, 30],
12                   ["Japan", 20, 13, 30, 25],
13                   ["China", 20, 16, 30, 24],
14                   ["America", 20, 20, "", ""],
15                   ["Japan", 20, 5, 30, 25],
16                   ["Japan", 20, 14, 30, 25],
17                   ["America", 20, 15, 30, 20],
18                   ["Japan", 20, 8, 30, 18],
19                   ["America", "", "", 30, 7]]),
20    columns=['国', '英語問題数', '英語正答数', '国語問題数', '国語正答数']
21             )
22
23dfx = df.groupby('国', sort=False).agg(
24    英語人数=('英語問題数', lambda x: x.ne('').sum()),
25    英語問題数=('英語問題数', 'first'),
26    英語平均正答数=('英語正答数', lambda x: pd.to_numeric(x, errors='coerce').mean()),
27    英語中央値=('英語正答数', lambda x: pd.to_numeric(x, errors='coerce').median()),
28    英語標準偏差=('英語正答数', lambda x: pd.to_numeric(x, errors='coerce').std()),
29    国語人数=('国語問題数', lambda x: x.ne('').sum()),
30    国語問題数=('国語問題数', 'first'),
31    国語平均正答数=('国語正答数', lambda x: pd.to_numeric(x, errors='coerce').mean()),
32    国語中央値=('国語正答数', lambda x: pd.to_numeric(x, errors='coerce').median()),
33    国語標準偏差=('国語正答数', lambda x: pd.to_numeric(x, errors='coerce').std()),
34)
35dfx.insert(3, '英語平均正答率', dfx['英語平均正答数']/dfx['英語問題数'].astype(int))
36dfx.insert(9, '国語平均正答率', dfx['国語平均正答数']/dfx['国語問題数'].astype(int))
37
38total = {
39    '英語正答数': pd.to_numeric(df['英語正答数'], errors='coerce'),
40    '英語問題数': df.loc[df['英語問題数'].ne(''), '英語問題数'].astype(int)[0],
41    '国語正答数': pd.to_numeric(df['国語正答数'], errors='coerce'),
42    '国語問題数': df.loc[df['国語問題数'].ne(''), '国語問題数'].astype(int)[0],
43}
44dfx.loc['Total'] = [
45    df['英語問題数'].ne('').sum(),
46    total['英語問題数'],
47    total['英語正答数'].mean(), 
48    total['英語正答数'].mean() / total['英語問題数'],
49    total['英語正答数'].median(),
50    total['英語正答数'].std(),
51    df['国語問題数'].ne('').sum(),
52    total['国語問題数'],
53    total['国語正答数'].mean(), 
54    total['国語正答数'].mean() / total['国語問題数'],
55    total['国語正答数'].median(),
56    total['国語正答数'].std(),
57]
58
59print(dfx)

国	英語人数	英語問題数	英語平均正答数	英語平均正答率	英語中央値	英語標準偏差	国語人数	国語問題数	国語平均正答数	国語平均正答率	国語中央値	国語標準偏差
Japan	7	20	11	0.55	12	4.16333	8	30	25.25	0.841667	25	3.45378
America	5	20	17.6	0.88	18	2.07364	5	30	13.8	0.46	18	7.69415
China	1	20	16	0.8	16	nan	1	30	24	0.8	24	nan
Total	13	20	13.9231	0.696154	15	4.59096	14	30	21.0714	0.702381	24.5	7.5086