PythonでCSVファイル内のデータ操作を行いたい

実現したいこと

CSVファイルのデータを下記の内容で処理させたい。

リスト同じ取引番号のデータごとで処理をさせたい。
取引区分が0で１行のみの時は取引区分が2の行の明細１から明細３までを取引区分が0の明細１から明細３に張り付ける。
同じ取引番号で取引区分が0が複数行あるときは取引区分2の行の入金金額から明細3までを取引区分が0の行に張り付ける。
取引区分に21が入っている行は削除

CSVデータは下記の図のように処理をさせたいです。

前提

Python（python-3.12.2）でCSVデータを処理するプログラムを作っています。
描いている結果が得られなくて詰まっています。
コードについてアドバイスをいただければと思います。
よろしくお願いいたします。

CSVファイルの中身です。
取引番号,取引トランザクション,取引区分,価格,入金金額,明細１,明細２,明細３
1,1,3,0,,,,
2,2,0,1000,,,,
2,3,2,0,,商品A,カテゴリA,10kg
3,4,0,1000,,,,
3,5,0,1000,,,,
3,6,0,1000,,,,
3,7,2,0,3000,商品B,カテゴリB,500kg
4,8,0,1000,,,,
4,9,0,1000,,,,
4,10,0,1000,,,,
4,11,0,1000,,,,
4,12,0,1000,,,,
4,13,2,0,5000,商品C,カテゴリC,90kg
5,14,0,1000,,,,
5,15,21,0,,,,
5,16,2,0,,,,

発生している問題・エラーメッセージ

思い描く集計ができません。

該当のソースコード

Python
1import pandas as pd
2
3df = pd.read_csv('datafile.csv', encoding='cp932')
4
5df = df[(df['取引区分'] != 21) & (df['取引区分'] != 3)].reset_index(drop=True)
6
7
8# 取引番号でグループ化する
9for _, group in df.groupby('取引番号'):
10    # グループ内の最後の行を取得
11    last_row = group.iloc[-1]
12# 明細１明細２明細３のコピー処理。逆順処理
13for index in group.index[::-1]:
14        
15        next_col_index = df.columns.get_loc('明細３') + 1
16        if next_col_index < len(df.columns):  # 'マルチ決済金額'の次の列が存在する場合
17            next_col_name = df.columns[next_col_index]
18            df.loc[index, '入金金額':next_col_name] = last_row['入金金額':'明細３']
19        else:  # 'マルチ決済金額'が最後の列の場合
20            df.loc[index, '入金金額':] = last_row['入金金額':'明細３']
21
22# 変更を加えたデータフレームを新しいCSVファイルとして保存
23df.to_csv('updated_datafile.csv', index=False)

退会済みユーザー

2024/03/31 10:19 編集

・画像の1枚目と2枚目の内容に齟齬があります。正しい情報を記載してください。・取引区分「0」「2」「21」以外のデータはどう扱うのか明示してください。（画像1枚目では2行目の取引区分「3」のデータは削除されているように見えますが、質問文自体には何も書いてありません）・同一取引番号内に、必ず「取引区分0が1つ以上存在し、取引区分2は1つだけ存在する」と考えてよいのか？

mitty.mn

2024/03/31 10:38

コメントありがとうございます。・画像の1枚目と2枚目の内容に齟齬があります。正しい情報を記載してください。 ↓ 画像の一枚目「実現したいこと」の項目に添付している画像は実現したい集計になります。２枚目の画像「発生している問題・エラーメッセージ」の項目に添付している画像は「該当のソースコード」のコードを実行した結果になります。説明できておらずすみません。・取引区分「0」「2」「21」以外のデータはどう扱うのか明示してください。（画像1枚目では2行目の取引区分「3」のデータは削除されているように見えますが、質問文自体には何も書いてありません） ↓ 取引区分「3」のデータは削除します。その他の数字が出てきた時も削除を行います。・同一取引番号内に、必ず「取引区分0が1つ以上存在し、取引区分2は1つだけ存在する」と考えてよいのか？ ↓ １行目のように「0」以外の数字が入っている取引番号が１行分のときがあります。このパターン以外は「取引区分0が1つ以上存在し、取引区分2は1つだけ存在します」

行動規範の内容に同意します

回答2件

もし、記載いただいたプログラムの通りならインデントの問題と取引区分が2の行を削除していないからではないですか？

python
1import pandas as pd
2df = pd.read_csv('datafile.csv', encoding='utf-8')
3df = df[(df['取引区分'] != 21) & (df['取引区分'] != 3)].reset_index(drop=True)
4for _, group in df.groupby('取引番号'):
5  last_row = group.iloc[-1]
6  for index in group.index[::-1]:
7    next_col_index = df.columns.get_loc('明細３') + 1
8    if next_col_index < len(df.columns):  # 'マルチ決済金額'の次の列が存在する場合
9        next_col_name = df.columns[next_col_index]
10        df.loc[index, '入金金額':next_col_name] = last_row['入金金額':'明細３']
11    else:  # 'マルチ決済金額'が最後の列の場合
12        df.loc[index, '入金金額':] = last_row['入金金額':'明細３']
13df = df[df['取引区分'] != 2]
14# 変更を加えたデータフレームを新しいCSVファイルとして保存
15df.to_csv('updated_datafile.csv', index=False)

投稿2024/03/31 12:31

aoihello

総合スコア31

mitty.mn

2024/03/31 13:19

ご回答、誠にありがとうございます。コード修正して試してみます！

行動規範の内容に同意します

ベストアンサー

bfill() して最後の行(取引区分 2)を削除します。

python
1import pandas as pd
2
3df = pd.read_csv('datafile.csv', encoding='cp932')
4df = df[(df['取引区分'] != 21) & (df['取引区分'] != 3)].reset_index(drop=True)
5
6#
7dfx = df.copy()
8cols = ['入金金額','明細１','明細２','明細３']
9dfx[cols] = dfx.sort_values(['取引番号', '取引区分']).groupby('取引番号')[cols].bfill()
10dfx = dfx.drop(dfx.groupby('取引番号').tail(1).index)
11print(dfx)

取引番号	取引トランザクション	価格	入金金額	明細１	明細２	明細３
2	2	1000	nan	商品A	カテゴリA	10kg
3	4	1000	3000	商品B	カテゴリB	500kg
3	5	1000	3000	商品B	カテゴリB	500kg
3	6	1000	3000	商品B	カテゴリB	500kg
4	8	1000	5000	商品C	カテゴリC	90kg
4	9	1000	5000	商品C	カテゴリC	90kg
4	10	1000	5000	商品C	カテゴリC	90kg
4	11	1000	5000	商品C	カテゴリC	90kg
4	12	1000	5000	商品C	カテゴリC	90kg
5	14	1000	nan	nan	nan	nan