pythonで集計したい

今年(df1)

商品id	商品名	販売日	数量
002	リンゴ	20200101	10
004	なし	20200101	15
002	リンゴ	20200103	10
003	メロン	20200103	10
004	なし	20200103	10
002	リンゴ	20200105	10
003	メロン	20200105	10
004	なし	20200105	10

去年(df2)

商品id	商品名	販売日	数量
003	メロン	20190102	20
004	リンゴ	20190102	10
001	いちご	20190103	30
002	いちご	20190103	10

集計(df3)

商品id	商品名
001	いちご
002	リンゴ
003	メロン
004	なし
005	パイナップル

最終イメージ

商品id	商品名	今年数量	去年数量
001	いちご	0	40
002	リンゴ	40	10
003	メロン	15	20
004	なし	40	0
005	パイナップル	0	0

「今年」と「去年」のデータがあり「集計」の商品id毎に数量を集計し今年と昨年の販売数量を入れて「最終イメージ」のようなデータを完成させたいです。「最終イメージ」のように集計した結果、販売数量がなければ0を表示させたいです。よろしくお願い致します。

import pandas as pd

df1 = pd.DataFrame(
data={'商品id':["002","004","002","003","004","002","003","004"],
'商品名':["リンゴ","なし","リンゴ","メロン","なし","リンゴ","メロン","なし"],
'販売日':[20200101,20200101,20200103,20200103,20200103,20200105,20200105,20200105],
'数量':[10,15,10,10,10,10,10,10]})
df2 = pd.DataFrame(
data={'商品id':["003","004","001","002"],
'商品名':["メロン","リンゴ","いちご","いちご"],
'販売日':[20190102,20190102,20190103,20190103],
'数量':[20,10,30,10]})
df3 = pd.DataFrame(
data={'商品id':["001","002","003","004","005"],
'商品名':["いちご","リンゴ","メロン","なし","パイナップル"]
})

使っているツールのバージョンなど補足情報
Windows10
python3.9 64bit

melian

2022/01/03 00:04 編集

df2 = pd.DataFrame( data={'商品id':["003","004","001","002"], '商品名':["メロン","リンゴ","いちご","いちご"], となっていますが、df2 の「商品id」は ["003","002","001","001"] となるのではないでしょうか？

fire

2022/01/03 21:38

ご指摘頂いた通り["003","002","001","001"]です。失礼しました。

行動規範の内容に同意します

回答2件

ベストアンサー

df2 = pd.DataFrame(
  data={'商品id':["003","004","001","002"],
  '商品名':["メロン","リンゴ","いちご","いちご"],

となっていますが、df2 の「商品id」は ["003","002","001","001"] となるのではないでしょうか？

["003","002","001","001"] です。

python
1s1 = df1.groupby('商品id').sum()['数量'].rename('今年数量')
2s2 = df2.groupby('商品id').sum()['数量'].rename('去年数量')
3result = df3.set_index('商品id').join([s1, s2]).fillna(0, downcast='infer').reset_index()
4
5print(result.to_markdown(index=False))

商品id	商品名	今年数量	去年数量
001	いちご	0	40
002	リンゴ	30	10
003	メロン	20	20
004	なし	35	0
005	パイナップル	0	0

投稿2022/01/03 23:18

melian

総合スコア21106

こういう感じです。

python
1>>> df1sum = df1[['商品名', '数量']].groupby('商品名').sum()
2>>> df1sum.columns = ['今年数量']
3>>> df2sum = df2[['商品名', '数量']].groupby('商品名').sum()
4>>> df2sum.columns = ['去年数量']
5>>> print(pd.concat([df3.set_index('商品名'), df1sum, df2sum], axis=1).fillna(0).astype(int).reset_index()[['商品id', ' 商品名', '今年数量', '去年数量']])
6   商品id        商品名  今年数量  去年数量
70       1        いちご         0        40
81       2        リンゴ        30        10
92       3        メロン        20        20
103       4          なし        35         0
114       5  パイナップル         0         0

投稿2022/01/02 23:25

ppaul

総合スコア24672

fire

2022/01/03 23:05

ありがとうございます。二つ質問です。 ①astype(int)としておりますが、数量の型変換になるのでしょうか？　なぜ型変換するのか理解できておりません。　よろしくお願い致します。 ②商品名でgroup byを使用していますが仮に商品idでgroup by 使用する場合も同じようないけるのでしょうか？下記のように変更しましたがエラーが出ておりできませんでした。 df1sum = df1[['商品id', '数量']].groupby('商品id').sum() df1sum.columns = ['今年数量'] df2sum = df2[['商品id', '数量']].groupby('商品id').sum() df2sum.columns = ['去年数量'] print(pd.concat([df3.set_index('商品id'), df1sum, df2sum], axis=1).fillna(0).astype(int).reset_index()[['商品id', '商品名', '今年数量', '去年数量']]) よろしくお願い致します。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

pythonで集計したい

関連した質問