前提・実現したいこと

![
1.csvを二次元配列として読み込む
2.伝票番号を基準にソート
3.同じ伝票番号が複数あった場合、買ったものと個数を移動し、１行にまとめたい
4.その結果をcsvへ出力

発生している問題・エラーメッセージ

2の伝票番号を基準にソートすることまではできました。
3の伝票番号が複数あった場合に買ったものと個数を移動して１行にまとめる処理がどう実現すればいいのか検討がつきません。

該当のソースコード

python
1#csvを読み込む
2with open(sys.argv[1]) as f:
3    reader = csv.reader(f)
4    denpyou = [row for row in reader]
5
6# ヘッダーを取得
7header = denpyou[0]
8
9#ヘッダーを消す
10denpyou = np.delete(denpyou, 0, 0)
11
12#伝票番号を基準にソート
13denpyou.sort(key=lambda x: str(x[0]))
14
15#ヘッダーを挿入
16denpyou.insert(0, header)
17
18#csvに出力
19with open("denpyou.csv", "w") as f:
20        writer = csv.writer(f, lineterminator='\n')
21        writer.writerows(denpyou)

補足情報（FW/ツールのバージョンなど）

Python 3.9.5
Windows 10

行動規範の内容に同意します

回答2件

やろうとしていることが難しいことなので簡単にはできません。
前提として、同じ伝票番号の購入者は同一人物であることを仮定しています。
実用的な意味を考えて、ひとつの伝票番号の買ったものが3個以下であることは前提としないことにしました。そのために入力データを一つ増やしてあります。

入力データ

python
1>>> import pandas as pd
2>>> import numpy as np
3>>> print(df)
4   伝票番号 購入者氏名 買ったもの  個数  値段
50         1         母         卵     1   200
61         2         父         魚     1   300
72         5         母         水     1   100
83         3         母       野菜     1   200
94         4         父     お菓子     1   100
105         5         母   ジュース     1   150
116         5         母       お茶     1   150
127         6         父         酒     1   200
138         2         父       お肉     1   800
149         5         母     リンゴ     1   250

処理コード

python
1def order(df):
2    df['order'] = pd.RangeIndex(start=1, stop=len(df.index)+1)
3    return df
4
5df2 = df.groupby('伝票番号').apply(order)
6df2['買ったものorder'] = '買ったもの' + df2['order'].astype(str)
7df2['個数order'] = '個数' + df2['order'].astype(str)
8df3 = pd.concat([df2.pivot(index=('伝票番号', '購入者氏名'), columns='買ったものorder', values='買ったもの'),
9                 df2.pivot(index=('伝票番号', '購入者氏名'), columns='個数order', values='個数')], axis=1)
10cols = df3.columns
11df4 = df3.reindex(columns=np.array(cols).reshape(2,len(cols)//2).T.reshape(len(cols)))
12df5 = pd.concat([df4, df.groupby(['伝票番号', '購入者氏名'])['値段'].sum()], axis=1)
13df6 = df5.reset_index()
14print(df6)

実行結果

python
1>>> print(df6)
2   伝票番号 購入者氏名 買ったもの1  個数1 買ったもの2  個数2 買ったもの3  個数3 買ったもの4  個数4  値段
30         1         母          卵    1.0         NaN    NaN         NaN    NaN         NaN    NaN   200
41         2         父          魚    1.0        お肉    1.0         NaN    NaN         NaN    NaN  1100
52         3         母        野菜    1.0         NaN    NaN         NaN    NaN         NaN    NaN   200
63         4         父      お菓子    1.0         NaN    NaN         NaN    NaN         NaN    NaN   100
74         5         母          水    1.0    ジュース    1.0        お茶    1.0      リンゴ    1.0   650
85         6         父          酒    1.0         NaN    NaN         NaN    NaN         NaN    NaN   200

個数が整数ではなく浮動小数点数なのは、列も値のないことを示すNaNが入っている場合の仕様です。

あとは、df6をto_excelでExcelフォーマットで保存してください。

投稿2021/10/09 14:56

ppaul

総合スコア24670

ベストアンサー

やり方

説明はほとんどコードにコメントで書き込みました。
なのでコメントによる説明も読んでください。
一応書いている事前に知っておきたい情報をもし既に知っており深いに思った場合はすみません。

事前に知っておきたい情報

リストの指定したとこに何か別のものを代入する方法

リストの場合スライスで値を代入することができます。

例

python
1test = [1, 2, 3]
2test[0] = 0 # testの0番目を0にする
3print(test)
4# [0, 2, 3]

これを使うことで行の指定した列に何かを入れることができます。

文字列を整数に変換する方法

python
1test = "1"           # 文字列の1、整数型ではない。
2print(test + 1)      # -> エラーが発生   ：文字列と整数は足せない。
3print(int(test) + 1) # -> intで整数に変換：正常に動き2が出力される。

本編

このコードは順番を整えた後に実行されることを前提にしています。

python
1new_denpyou = []    # 重複を消した新しい伝票のリスト
2added = []          # 既にnew_denpyouに登録した行の番号を入れるリスト
3for row in denpyou: # ひとつづつ伝票から行を取り出す。
4    if row[0] in added: # もし既に登録してる番号の行なら。
5        # この行の買ったもの1を最後にnew_denpyouに登録した行に追加します。
6        if new_denpyou[-1][4]:
7            # もしnew_denpyouの最後の行の買ったもの2がまだ登録されていないなら、そこに重複した行の買ったもの1を入れる。
8            # また個数も代入する。
9            new_denpyou[-1][4] = row[2]
10            new_denpyou[-1][5] = row[3]
11        else:
12            # もし買ったもの2が既に登録されているなら買ったもの3に代入する。
13            # また個数も代入する。
14            new_denpyou[-1][6] = row[2]
15            new_denpyou[-1][7] = row[3]
16        # 新しい重複なしの伝票リストのnew_denpyouの最後の行の値段に追加したものの値段を加算する。
17        new_denpyou[-1][-1] = int(row[-1]) + int(new_denpyou[-1][-1])
18    else:
19        # もしまだ調べていない初めて出会った伝票番号なら、
20        # 既に調べたリストのaddedに番号を追加しておく。
21        # そのaddedで重複してるかのチェックを行う。
22        added.append(row[0])
23        # 新しい伝票のリストに行を追加しておく。
24        new_denpyou.append(row)
25

※重複なしの新しい伝票リストnew_denpyouを作るのでこのコードの後のdenpyouはnew_denpyouにしないといけません。

バグチェックをしていないのでもし何かエラーがあれば返信で伝えてください。
それとわからないことがあれば気軽に返信で聞いてください。

投稿2021/10/09 14:01

編集2021/10/09 14:03

tasuren

総合スコア76

kntm

2021/10/11 00:57

回答ありがとうございます！質問なのですが、 if new_denpyou[-1][4]: ↑のif文はどういう条件分岐なのでしょうか？一通り処理は動いたのですが、買ったもの２がまだ登録されていない状態で、買ったもの３に代入されてしまいました。 if new_denpyou[-1][4]:をif new_denpyou[-1][2]:に書き換えたところ、買ったもの２がまだ登録されていない状態で買ったもの２に代入されるようになりましたが、if new_denpyou[-1][2]:が正しいのでしょうか...？

kntm

2021/10/11 01:46

if new_denpyou[-1][4] == "": ~省略 elif new_denpyou[-1][6] == "": ~省略とすることで希望通りの動きをしてくれました