groupbyを使った集計

Question

### 前提・実現したいこと
groupby機能を使って同じキーワードで巻数が付いているのものをまとめたいです。
例えば、このようなCSVがあった場合、

作品名｜著者｜売上
愛してる(1)|もぎ|100
愛してる(1)|もぎ|200
愛してる(2)|もぎ|300
愛してる(2)|もぎ|400
愛してる(3)|もぎ|500
愛してる(3)|もぎ|600

作品名｜著者｜売上
愛してる|もぎ|2100

としたいです。

### 発生している問題・エラーメッセージ

```
ここまではできますがこれ以上はできない。。
作品名｜著者｜売上
愛してる(1)|もぎ|300
愛してる(2)|もぎ|700
愛してる(3)|もぎ|1100
```

### 該当のソースコード

```Python
import pandas as pd
import csv,json

df = pd.read_csv("xxx.csv", encoding="shift-jis")
df = df.groupby("作品名", as_index=None).sum()
print(df)
```

### 試したこと

上記ソースコードでエラーに記載したような部分まではできるのですが、(1)、(2)と(3)をまとめるスキルがありませんのでご教授ください。

### 補足情報（FW/ツールのバージョンなど）
MAC OS High Sierra
ver.10.13.6
Python 3.4.3
ここにより詳細な情報を記載してください。

Accepted Answer

素直に"作品名"と"巻数"を分離したDataFrameに変換しておくと良いかと思います。

```Python
import pandas as pd
import io

s = '''作品名｜著者｜売上
愛してる(1)|もぎ|100
愛してる(1)|もぎ|200
愛してる(2)|もぎ|300
愛してる(2)|もぎ|400
愛してる(3)|もぎ|500
愛してる(3)|もぎ|600'''
df = pd.read_csv(io.StringIO(s), encoding="utf-8", sep='\||｜')

df = df["作品名"].str.extract('(\D*)((\d+))', expand=False).rename(columns={0:'作品名',1:'巻数'}).join(df.drop('作品名', axis=1))
#    作品名 巻数  著者   売上
#0  愛してる  1  もぎ  100
#1  愛してる  1  もぎ  200
#2  愛してる  2  もぎ  300
#3  愛してる  2  もぎ  400
#4  愛してる  3  もぎ  500
#5  愛してる  3  もぎ  600

ret = df.groupby(['作品名','著者']).agg({'売上':'sum'}).reset_index()
#    作品名  著者    売上
#0  愛してる  もぎ  2100
```

Answer

これで
```python
import pandas as pd
import csv,json

df = pd.read_csv("xxx.csv", encoding="shift-jis")
df = df.replace('(\d+)','', regex=True)
df = df.groupby("作品名", as_index=None).sum()
print(df)
```

Answer

もう少しスマートな方法もあるかもしれませんが、とりあえずこれで。


> 
> https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html

```python
import io
import pandas as pd

txt = """
作品名,著者,売上
愛してる(1),もぎ,100
愛してる(1),もぎ,200
愛してる(2),もぎ,300
愛してる(2),もぎ,400
愛してる(3),もぎ,500
愛してる(3),もぎ,600
"""

df = pd.read_csv(io.StringIO(txt), sep=",")
df = df.groupby(df["作品名"].str.replace(r"(\d+)", ""), as_index=None).sum()
print(df)
""" =>
     売上
0  2100
"""
```

Answer

アラビア数字になっていればなんとかしてくれる方法は誰かが教えてくれそうなので、
アラビア数字に変換する方法が記されているリンクを提示いたします。

https://qiita.com/dosec/items/c6aef40fae6977fd89ab

---

ちなみに数字部分だけが異なるのであれば、正規表現を使うとよいです。

---

```python
import pandas as pd
import io

s = '''作品名｜著者｜売上
愛してる(1)|もぎ|100
愛してる(1)|もぎ|200
愛してる(2)|もぎ|300
愛してる(2)|もぎ|400
愛してる(3)|もぎ|500
愛してる(3)|もぎ|600'''
s = s.replace('|', ',')
s = s.replace('｜', ',')

df = pd.read_csv(io.StringIO(s), encoding="utf-8")

df = df.groupby(df["作品名"].str.extract('(\D*)(\d+)', expand=False), axis=0).sum()
print(df)
```

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問