Pythonで列内の複数の文字列と一致するものをグループ分けして更に別列の数字を合計したいです。

前提・実現したいこと

完全に初心者で恐縮ですが調べてもどうしてもわからなかったので質問させていただきます。
以下のcsvを特定の条件に分類分けし、金額の合計を別のExcelに出力したいと考えております。

条件
製品をグループ化
更に区分内を（本体価格と消費税）、（手数料）となるようグループ化
更に国を（JP）、（JP以外）となるようグループ化
最後にそれぞれグループ分けされた金額の数字をsumしてExcelに出力

該当のソースコード

製品名　区分　　　国　　金額
製品A　本体価格　JP　　xxxx
製品A　消費税　　JP　　xxxx
製品A　手数料　　JP　　xxxx
製品A　本体価格　US　　xxxx
製品A　消費税　　US　　xxxx
製品A　手数料　　US　　xxxx
製品A　本体価格　HK　　xxxx
製品A　消費税　　HK　　xxxx
製品A　手数料　　HK　　xxxx
製品B　本体価格　JP　　xxxx
製品B　消費税　　JP　　xxxx
製品B　手数料　　JP　　xxxx
製品C　本体価格　JP　　xxxx
製品C　消費税　　JP　　xxxx
製品C　手数料　　JP　　xxxx

試したこと

import pandas as pd
import openpyxl

df = pd.read_csv("C:\Users\userA\Desktop\売上データ.csv", encoding = "shift-jis")

pd.set_option('display.max_rows', None)

df = df.groupby(["製品名","区分","国"])

df.sum().to_excel('C:\Users\userA\Desktop\出力先.xlsx', sheet_name='data')

これである程度の金額の合計は出せるのですが、区分と国がバラバラになっており、想定していたことができておりません。。。

aqufiz

2021/04/14 04:13

どのようにバラバラになっているか結果を貼って頂きたいです．

ppaul

2021/04/14 04:47

期待通りの結果が得られないということだと思いますが、tatsu2さんが期待するものが何なのかが書かれていないので答えようがありません。回答を求めるなら、どういう出力を期待しているのかを質問に追加しましょう。

tatsu2

2021/04/14 04:50 編集

ご返信ありがとうございます。以下のようになります。製品名　区分　　　国　金額製品A　本体価格　JP　 xxxx 　　　　　　　　US xxxx　　　　　　　　　HK　xxxx 製品A　消費税　　JP　 xxxx 　　　　　　　　US xxxx　　　　　　　　　HK　xxxx 製品A　手数料　　JP　 xxxx 　　　　　　　　US xxxx　　　　　　　　　HK　xxxx ・・・各製品ごとに同じようになるソースコードの部分に記載が漏れてわかりにくくなっており大変申し訳ないのですが、 1つの製品が1つ売れる毎に価格、消費税、手数料が1つずつcsvに記載されるため、 csv内には同じデータが大量に存在します。それを合計して毎月どのくらい売れたのかをJP、JP以外で取りまとめたいのが今回の趣旨となります

tatsu2

2021/04/14 04:55

理想的な出力結果は以下となります製品名　区分　　　　　　　国　　合計金額製品A　本体価＋消費税　　JP　　　xxxx 製品A　手数料　　　　　　JP　　　xxxx 製品A　本体価＋消費税　　JP以外　xxxx 製品A　手数料　　　　　　JP以外　xxxx ・・・各製品ごとに同じ処理をする分かりにくくて申し訳ありません。このような結果を想定しております【本体価格＋消費税】や【JP以外】は別の名前にリネームする等ができると嬉しいです

行動規範の内容に同意します

回答2件

ベストアンサー

データは適当ですが、以下のような感じでしょうか。

元データ

python
1>>> print(df)
2    製品名    区分   国    金額
30   製品A  本体価格  JP  1000
41   製品A   消費税  JP   100
52   製品A   手数料  JP    10
63   製品A  本体価格  US   800
74   製品A   消費税  US    70
85   製品A   手数料  US   300
96   製品A  本体価格  HK  3000
107   製品A   消費税  HK   150
118   製品A   手数料  HK   500
129   製品B  本体価格  JP  1800
1310  製品B   消費税  JP   180
1411  製品B   手数料  JP  2000
1512  製品C  本体価格  JP   500
1613  製品C   消費税  JP    50
1714  製品C   手数料  JP   600
1815  製品A  本体価格  JP  1500
1916  製品A   消費税  JP   150
2017  製品A   手数料  JP    15
2118  製品A  本体価格  US  1600
2219  製品A   消費税  US   140
2320  製品A   手数料  US   600
2421  製品B  本体価格  JP  1200
2522  製品B   消費税  JP   120
2623  製品B   手数料  JP  2000
2724  製品B  本体価格  HK  1000
2825  製品B   消費税  HK    60
2926  製品B   手数料  HK   200
3027  製品C  本体価格  JP   900
3128  製品C   消費税  JP    90
3229  製品C   手数料  JP   300

変換処理

python
1class_d = {'本体価格': '本体価格＋消費税', '消費税': '本体価格＋消費税', '手数料': '手数料'}
2
3df['大区分'] = df['区分'].apply(lambda x: class_d[x])
4df['国内外'] = df['国'].apply(lambda x: 'JP' if x=='JP' else 'JP以外')
5df.drop(['区分', '国'], axis=1, inplace=True)
6df_temp = df.groupby(['製品名', '国内外', '大区分']).sum()
7df_temp2 = df_temp.reset_index().reindex(columns=['製品名', '大区分', '国内外', '金額'])
8df_result = df_temp2.sort_values(['製品名', '国内外', '大区分'], ascending=[True, True, False])
9df_result.columns = ['製品名', '区分', '国', '合計金額']

実行結果

python
1>>> class_d = {'本体価格': '本体価格＋消費税', '消費税': '本体価格＋消費税', '手数料': '手数料'}
2>>>
3>>> df['大区分'] = df['区分'].apply(lambda x: class_d[x])
4>>> df['国内外'] = df['国'].apply(lambda x: 'JP' if x=='JP' else 'JP以外')
5>>> df.drop(['区分', '国'], axis=1, inplace=True)
6>>> df_temp = df.groupby(['製品名', '国内外', '大区分']).sum()
7>>> df_temp2 = df_temp.reset_index().reindex(columns=['製品名', '大区分', '国内外', '金額'])
8>>> df_result = df_temp2.sort_values(['製品名', '国内外', '大区分'], ascending=[True, True, False])
9>>> df_result.columns = ['製品名', '区分', '国', '合計金額']
10>>> print(df_result)
11   製品名        区分     国  合計金額
121  製品A  本体価格＋消費税    JP  2750
130  製品A       手数料    JP    25
143  製品A  本体価格＋消費税  JP以外  5760
152  製品A       手数料  JP以外  1400
165  製品B  本体価格＋消費税    JP  3300
174  製品B       手数料    JP  4000
187  製品B  本体価格＋消費税  JP以外  1060
196  製品B       手数料  JP以外   200
209  製品C  本体価格＋消費税    JP  1540
218  製品C       手数料    JP   900

投稿2021/04/14 05:50

ppaul

総合スコア24670

tatsu2

2021/04/14 06:58

ありがとうございます！！想定していたことができました。分かりにくい質問だったのに大変助かりました。

行動規範の内容に同意します

python
1
2import pandas as pd
3
4dat = [
5["製品A","本体価格","JP",500],
6["製品A","消費税","JP",5],
7["製品A","手数料","JP",50],
8["製品A","本体価格","US",50],
9["製品A","消費税","US",5],
10["製品A","手数料","US",50],
11["製品A","本体価格","HK",50],
12["製品A","消費税","HK",5],
13["製品A","手数料","HK",50],
14["製品B","本体価格","JP",80],
15["製品B","消費税","JP",8],
16["製品B","手数料","JP",5],
17["製品C","本体価格","JP",90],
18["製品C","消費税","JP",9],
19["製品C","手数料","JP",50],
20]
21
22df = pd.DataFrame(dat, columns=["製品名","区分","国","金額"])
23print(df)
24
25isjp = df.loc[:,'国']=="JP"
26print(isjp)
27isfee = df.loc[:,'区分']=="手数料"
28
29g = df.groupby(["製品名", isjp, isfee])
30for val in g:
31    print(val)
32
33