質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

643閲覧

[特定の列]が[重複する行]の[特定の項目(列)]をくっつける

kntm

総合スコア58

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/10/09 05:22

編集2021/10/09 06:38

前提・実現したいこと

![イメージ説明
1.csvを二次元配列として読み込む
2.伝票番号を基準にソート
3.同じ伝票番号が複数あった場合、買ったものと個数を移動し、1行にまとめたい
4.その結果をcsvへ出力

発生している問題・エラーメッセージ

2の伝票番号を基準にソートすることまではできました。
3の伝票番号が複数あった場合に買ったものと個数を移動して1行にまとめる処理がどう実現すればいいのか検討がつきません。

該当のソースコード

python

1#csvを読み込む 2with open(sys.argv[1]) as f: 3 reader = csv.reader(f) 4 denpyou = [row for row in reader] 5 6# ヘッダーを取得 7header = denpyou[0] 8 9#ヘッダーを消す 10denpyou = np.delete(denpyou, 0, 0) 11 12#伝票番号を基準にソート 13denpyou.sort(key=lambda x: str(x[0])) 14 15#ヘッダーを挿入 16denpyou.insert(0, header) 17 18#csvに出力 19with open("denpyou.csv", "w") as f: 20 writer = csv.writer(f, lineterminator='\n') 21 writer.writerows(denpyou)

補足情報(FW/ツールのバージョンなど)

Python 3.9.5
Windows 10

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

やろうとしていることが難しいことなので簡単にはできません。
前提として、同じ伝票番号の購入者は同一人物であることを仮定しています。
実用的な意味を考えて、ひとつの伝票番号の買ったものが3個以下であることは前提としないことにしました。そのために入力データを一つ増やしてあります。

入力データ

python

1>>> import pandas as pd 2>>> import numpy as np 3>>> print(df) 4 伝票番号 購入者氏名 買ったもの 個数 値段 50 1 母 卵 1 200 61 2 父 魚 1 300 72 5 母 水 1 100 83 3 母 野菜 1 200 94 4 父 お菓子 1 100 105 5 母 ジュース 1 150 116 5 母 お茶 1 150 127 6 父 酒 1 200 138 2 父 お肉 1 800 149 5 母 リンゴ 1 250

処理コード

python

1def order(df): 2 df['order'] = pd.RangeIndex(start=1, stop=len(df.index)+1) 3 return df 4 5df2 = df.groupby('伝票番号').apply(order) 6df2['買ったものorder'] = '買ったもの' + df2['order'].astype(str) 7df2['個数order'] = '個数' + df2['order'].astype(str) 8df3 = pd.concat([df2.pivot(index=('伝票番号', '購入者氏名'), columns='買ったものorder', values='買ったもの'), 9 df2.pivot(index=('伝票番号', '購入者氏名'), columns='個数order', values='個数')], axis=1) 10cols = df3.columns 11df4 = df3.reindex(columns=np.array(cols).reshape(2,len(cols)//2).T.reshape(len(cols))) 12df5 = pd.concat([df4, df.groupby(['伝票番号', '購入者氏名'])['値段'].sum()], axis=1) 13df6 = df5.reset_index() 14print(df6)

実行結果

python

1>>> print(df6) 2 伝票番号 購入者氏名 買ったもの1 個数1 買ったもの2 個数2 買ったもの3 個数3 買ったもの4 個数4 値段 30 1 母 卵 1.0 NaN NaN NaN NaN NaN NaN 200 41 2 父 魚 1.0 お肉 1.0 NaN NaN NaN NaN 1100 52 3 母 野菜 1.0 NaN NaN NaN NaN NaN NaN 200 63 4 父 お菓子 1.0 NaN NaN NaN NaN NaN NaN 100 74 5 母 水 1.0 ジュース 1.0 お茶 1.0 リンゴ 1.0 650 85 6 父 酒 1.0 NaN NaN NaN NaN NaN NaN 200

個数が整数ではなく浮動小数点数なのは、列も値のないことを示すNaNが入っている場合の仕様です。

あとは、df6をto_excelでExcelフォーマットで保存してください。

投稿2021/10/09 14:56

ppaul

総合スコア24670

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ベストアンサー

やり方

説明はほとんどコードにコメントで書き込みました。
なのでコメントによる説明も読んでください。
一応書いている事前に知っておきたい情報をもし既に知っており深いに思った場合はすみません。

事前に知っておきたい情報

リストの指定したとこに何か別のものを代入する方法

リストの場合スライスで値を代入することができます。

python

1test = [1, 2, 3] 2test[0] = 0 # testの0番目を0にする 3print(test) 4# [0, 2, 3]

これを使うことで行の指定した列に何かを入れることができます。

文字列を整数に変換する方法

python

1test = "1" # 文字列の1、整数型ではない。 2print(test + 1) # -> エラーが発生 :文字列と整数は足せない。 3print(int(test) + 1) # -> intで整数に変換:正常に動き2が出力される。

本編

このコードは順番を整えた後に実行されることを前提にしています。

python

1new_denpyou = [] # 重複を消した新しい伝票のリスト 2added = [] # 既にnew_denpyouに登録した行の番号を入れるリスト 3for row in denpyou: # ひとつづつ伝票から行を取り出す。 4 if row[0] in added: # もし既に登録してる番号の行なら。 5 # この行の買ったもの1を最後にnew_denpyouに登録した行に追加します。 6 if new_denpyou[-1][4]: 7 # もしnew_denpyouの最後の行の買ったもの2がまだ登録されていないなら、そこに重複した行の買ったもの1を入れる。 8 # また個数も代入する。 9 new_denpyou[-1][4] = row[2] 10 new_denpyou[-1][5] = row[3] 11 else: 12 # もし買ったもの2が既に登録されているなら買ったもの3に代入する。 13 # また個数も代入する。 14 new_denpyou[-1][6] = row[2] 15 new_denpyou[-1][7] = row[3] 16 # 新しい重複なしの伝票リストのnew_denpyouの最後の行の値段に追加したものの値段を加算する。 17 new_denpyou[-1][-1] = int(row[-1]) + int(new_denpyou[-1][-1]) 18 else: 19 # もしまだ調べていない初めて出会った伝票番号なら、 20 # 既に調べたリストのaddedに番号を追加しておく。 21 # そのaddedで重複してるかのチェックを行う。 22 added.append(row[0]) 23 # 新しい伝票のリストに行を追加しておく。 24 new_denpyou.append(row) 25

※重複なしの新しい伝票リストnew_denpyouを作るのでこのコードの後のdenpyounew_denpyouにしないといけません。


バグチェックをしていないのでもし何かエラーがあれば返信で伝えてください。
それとわからないことがあれば気軽に返信で聞いてください。

投稿2021/10/09 14:01

編集2021/10/09 14:03
tasuren

総合スコア76

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kntm

2021/10/11 00:57

回答ありがとうございます! 質問なのですが、 if new_denpyou[-1][4]: ↑のif文はどういう条件分岐なのでしょうか? 一通り処理は動いたのですが、買ったもの2がまだ登録されていない状態で、買ったもの3に代入されてしまいました。 if new_denpyou[-1][4]:をif new_denpyou[-1][2]:に書き換えたところ、買ったもの2がまだ登録されていない状態で買ったもの2に代入されるようになりましたが、if new_denpyou[-1][2]:が正しいのでしょうか...?
kntm

2021/10/11 01:46

if new_denpyou[-1][4] == "": ~省略 elif new_denpyou[-1][6] == "": ~省略 とすることで希望通りの動きをしてくれました
tasuren

2021/10/11 02:01

> `if new_denpyou[-1][4]:` で何も入っていないか入っているかを確かめています。 何か入っていると`True`になります。 それと希望通りの動作をしなくてすみません。 そのようにelifにするのでOKです。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問