pandas 行の項目ごとの平均値を算出したい

Question

pandasでcsvを読み込んだ後、大学ごとの偏差値平均を算出したいと考えています。

大学名	学部	偏差値
A大学	理工学部	57
A大学	文学部	57
A大学	経済学部	56
B大学	商学部	56
B大学	経済学部	58
C大学	法学部	56
C大学	経済学部	56
C大学	文学部	55

列ごとであれば、describe()関数で簡易に算出することができますが、
列内に存在する項目ごとに、特定列に対する平均値を算出する方法をご教示いただけましたら幸甚です。
初歩的な質問かとは存じますが、何卒よろしくお願い申し上げます。

Accepted Answer

groupby(集計する列名) でグループ化して、mean() 関数を呼び出すと、グループごとの平均が計算できます。

```python
import pandas as pd

df = pd.DataFrame(
    {
        "大学名": ["A大学", "A大学", "A大学", "B大学", "B大学", "C大学", "C大学", "C大学"],
        "学部": ["理工学部", "文学部", "経済学部", "商学部", "経済学部", "法学部", "経済学部", "文学部"],
        "偏差値": [57, 57, 56, 56, 58, 56, 56, 55],
    }
)

mean = df.groupby("大学名").mean()
print(mean)
#         偏差値
# 大学名
# A大学	56.666667
# B大学	57.000000
# C大学	55.666667
```

Answer

pandasのgroupbyとmeanで集計すると良いでしょう。

```python
import io
import pandas as pd

data = """
大学名    学部    偏差値
A大学    理工学部    57
A大学    文学部    57
A大学    経済学部    56
B大学    商学部    56
B大学    経済学部    58
C大学    法学部    56
C大学    経済学部    56
C大学    文学部    55
"""

df = pd.read_table(io.StringIO(data), sep="\s+", engine="python")
print(df)
""" =>
   大学名    学部  偏差値
0  A大学  理工学部   57
1  A大学   文学部   57
2  A大学  経済学部   56
3  B大学   商学部   56
4  B大学  経済学部   58
5  C大学   法学部   56
6  C大学  経済学部   56
7  C大学   文学部   55
"""

hensachi_means = df.groupby("大学名").mean()
print(hensachi_means)
""" =>
大学名           
A大学  56.666667
B大学  57.000000
C大学  55.666667
"""
```

関連した質問