Python pandas CSV のデータ加工につきまして、

お店の仕入れデータで下の【元データ】のようなものＣＳＶがあるのですが
別のソフトに読み込ますときに【最終】の形にしないといけなくて
今はエクセルで手動で置換＆行削除していますがミスがあったりするので
できれば自動化したいと思っています。

【元データ】

　Ａ　　　Ｂ　　　Ｃ　　　Ｄ　　　Ｅ　
本　店りんご
本　店バナナ
本　店みかん
本　店いちご
芦屋店バナナ
西宮店　りんご
西宮店バナナ
尼崎店　りんご
三宮店　りんご
三宮店　バナナ
三宮店　みかん

【途中】

　Ａ　　　Ｂ　　　Ｃ　　　Ｄ　　　Ｅ　
本　店りんご　バナナみかん　いちご
本　店バナナ
本　店みかん
本　店いちご
芦屋店バナナ
西宮店　りんご　バナナ
西宮店バナナ
尼崎店　りんご
三宮店　りんご　バナナ　みかん
三宮店　バナナ
三宮店　みかん

【最終】

　Ａ　　　Ｂ　　　Ｃ　　　Ｄ　　　Ｅ　
本　店りんご　バナナみかん　いちご
芦屋店バナナ
西宮店　りんご　バナナ
三宮店　りんご　バナナ　みかん

と、店名（Ａ列）と商品（Ｂ列）が商品（Ｂ列）で縦に羅列されたものを
と、店名（Ａ列）と商品（Ｂ列）を横に並べるようにしたいのですが、

順序が逆ですが【途中】→【最終】は

df1 = df.drop_duplicates(subset=['Ａ'], keep='first')　で、自力で出来たのですが

肝心の【元データ】→【途中】で困っています。

頭の中では、
① Ａ列上から順に上下の行を比較して同じだった（重複）場合、
② 比較した下側の隣のＢ列同行を指定した文字列を抽出し、
③ 一つ上のＣ列（比較上側のC列）に②の値を追加
④ 但し、その一つ上のＣ列（比較上側のC列）が空白（NaN）でない場合はさらに横の比較上側のＤ列）に追加
⑤ そのＤ列（比較上側のＤ列）も空白（NaN）でない場合はさらに横の比較上側のＥ列）に追加

かなと考えております。

【現状】

del_list = []
for i in range(len(df)):

bf = i-1, 1
af = i, 1
add = df.iloc[i, 2]

if df.iat[bf] == df1.iat[af]:
df.iloc[i-1, 3] = add
del_list.append(i)
df.drop(del_list, inplace=True, errors='ignore')
print(df)

で、何とか①～③は出来たっぽいのですが
④⑤の記述がよくわかりません。

del_list = []
for i in range(len(df)):
bf = i-1, 1
af = i, 1
add = df.iloc[i, 2]

if df.iat[bf] == df.iat[af] and df1iloc[i-1, 3] == np.nan:
df.iloc[i-1, 3] = add
de_list.append(i)

df.drop(del_list, inplace=True, errors='ignore')
print(df)

だとSyntaxError: invalid syntaxになってしまい。
np.nan(NaN)が原因なのか　and が原因なのかもわからない状態です。

行動規範の内容に同意します

回答4件

ベストアンサー

おはようございます。

お店関連の事務処理の自動化のために、pandas利用されていたんですね。少しでも改善されようとしてて素敵です。

問題文読ませていただきました。

以下の手順でご確認いただけますか？????‍♂️

こちらのサイト(https://github.com/kuroroblog/pandas-sample)へアクセスする。
緑の「Code」と書かれたボタンをクリックして、「Download ZIP」をクリックしてファイルをダウンロードする。
ダウンロードしたzipファイルをデスクトップへ移動する。
zipファイルをダブルクリックして展開する。
ターミナルを開く。
pandas-sample-masterフォルダのディレクトリへ移動する。(cd {{path_to}}/pandas-sample-masterコマンドを利用する。)
python main.pyを実行する。

<ファイル構成の説明>
・main.py : csvファイル(sample.csv)を読み込んで、csvファイル(output.csv)を書き出すPythonファイルです。
・sample.csv : 読み込み用csvサンプルです。
・output.csv : 書き込み用csvサンプルです。

投稿2021/05/06 22:33

退会済みユーザー

総合スコア0

eqeqe

2021/05/07 22:29 編集

KUROROさんおはようございます！そうなんです…有難うございます！何より手動でミスに気付かないのが問題になっていました＾＾；前回の質問ではあまりに丸投げの質問は失礼かと思い、何とか自力でという思いで質問しました。お陰様で前回一つ勉強になり、それを生かそうと試みましたがあれから調べまくって今回の質問のコードまでたどり着いたものの現状の私の知識ではさすがにお手上げで…具体的に質問させていただきました。一つ一つご説明いただき、ものすごく咀嚼し易くて驚きました。まさに頭の中でイメージしていた通りにみるみる動いていく感じでびっくりしました。そして参考文献を見て私の引っ掛かりは初心者あるあるあるなんだとも思い知りました＾＾；ただ単にコピペして使用させていただくというのは失礼なことと思い、いただいたファイルの＃説明文を一文一文咀嚼していたのでお礼のご連絡が遅くなりすみませんでした。自分なりに咀嚼した結果が、・CSVを呼びだす。・まず先に最終的な列名 A,B,C,D,E のデータ群の大枠の器を作っておく。・A列（0列目）には店名、B列（1列目）には商品名に指定したリストを作る。・そこでまずA列店名が始まる1行目（0行名は'A’の為）からその要素を一つずつ順番に下の行と比較していき、リストに同じものがあれば次々上側の最終列にその行のB列（商品名）を追加してデータ群に書くように指示。※ちなみに私が質問前に一番困惑していたのはここです（TT）・逆にリストに同じものが無ければ、店名、商品名をそのままデータ群に書いて更にリストにも新しくその店名を入れるそのことで forに戻って新しくその店名から同様の処理が始まる。 1行目＝＝2行目（同じ）店名+商品名 1行目の最後尾にさらに比較した側の商品名追加 1行目＝＝3行目（同じ）店名+商品名 1行目の最後尾にさらに比較した側の商品名追加 1行目＝＝3行目（同じ）店名+商品名 1行目の最後尾にさらに比較した側の商品名追加 1行目＝＝4行目（違う）4行目の店名+最後尾にB商品名追加（elseの指示のまま） 4行目＝＝5行目（同じ）店名+商品名 1行目の最後尾にさらに比較した側の商品名追加 4行目＝＝6行目（同じ）店名+商品名 1行目の最後尾にさらに比較した側の商品名追加 4行目＝＝7行目（違う）7行目の店名+最後尾にB商品名追加（elseの指示のまま） 7行目＝＝8行目（同じ）店名+商品名 1行目の最後尾にさらに比較した側の商品名追加のようなイメージ私は質問段階ではてっきり 1行目＝＝2行目（同じ）そのまま 2行目＝＝3行目（同じ）右斜め上に追加↑→ 3行目＝＝4行目（同じ）右斜め上の隣に追加↑→→ 5行目＝＝6行目（違う）そのままのような解釈をしていました＾＾；まずそこが駄目だったんでしょうか… ・完成したデータをCSVで書き出すためデータフレーム形式に変更（その際元データ形式通りにするため header, indexは削除）という解釈をいたしましたが合っていればよいのですが。今回も私に無い新しい知識や考え方をお教えいただき、本当にありがとうございます。特に今回知れたことはCSVデータそのものを変更していくような考え方ではなくpandas内で別途リストを作って作業して結果をデータにしていくという考え方など、改めて自分が無知中の無知だなと感じる反面、とても楽しく勉強になりました！まだまだ自動化に挑戦したいデータもたくさんあり勉強していこうと思っているので、また甘えてしまう事が多々あると思いますがお力添えいただければ幸いです。誠に有難うございました。

退会済みユーザー

2021/05/07 23:36 編集

おー、丁寧に文章読んでいたんですね。ありがとうございます！????‍♂️ 解決できてよかったです。上記の文章読ませていただきました。90%くらい合っているのですが、所々認識違いを起こしているかもです。恐らくなんですが、コードとリンク先を丁寧に読んで頂いたように思いますが、実際にコードを触りながらデータ内容の動きを確認していないように感じました。より成長していただきたいので、 print(出力したいもの) exit() を利用して、知りたい情報をprintで表示しつつ、後続処理を停止するためにexit()をprintの下に設置してコードの動きを分析してみてください。今回ですと、・for文の中身でどのようなことをしているのか? ・現在のoutputDataの中身ってどうなっているんだっけ？みたいなことが明瞭になります。 printについて(https://note.nkmk.me/python-print-basic/ ) exitについて(https://techacademy.jp/magazine/15831 ) 是非また気軽にご連絡ください。 Enjoy!!!

eqeqe

2021/05/08 07:46

ありがとうございます！この機会に一つずつ確認していきたいのでprint＆exitのリンク先を見て確認作業をしてみます！

行動規範の内容に同意します

こういう、同じものでまとめて処理したいときはgroupbyを使うのが良いです。

今回の場合、いったんlistでまとめて、それをDataFrameに展開するとできます。

python
1# Aが同じBをlistでまとめる
2x = df.groupby('A', sort=False)['B'].apply(list)
3# DataFrame化
4df2 = pd.DataFrame(x.to_list(), index=x.index)
5# 整形
6df3 = df2.reset_index()
7df3.columns = ['A', 'B', 'C', 'D', 'E']

投稿2021/05/06 23:55

bsdfan

総合スコア4560

eqeqe

2021/05/07 19:54 編集

bsdfanさん！とても短いコードで書けそうで驚いています。ただ現状で、コピペさせていただいてもＡＢＣＤＥ 0 本　店りんご NaN NaN NaN 1 本　店バナナ NaN NaN NaN 2 本　店みかん NaN NaN NaN 3 本　店いちご NaN NaN NaN 4 芦屋店バナナ NaN NaN NaN 5 西宮店りんご NaN NaN NaN 6 西宮店バナナ NaN NaN NaN 7 尼崎店りんご NaN NaN NaN 8 三宮店りんご NaN NaN NaN 9 三宮店バナナ NaN NaN NaN 10 三宮店みかん NaN NaN NaN となってしますので、もう少しgroupbyに関して勉強してみてこの書き方でも完成させるように勉強したいと思います！ありがとう御座いました！！

eqeqe

2021/05/11 14:08

bsdfanさん！こんにちは！あれからいただいたすべてのご意見を紐解くようにしていて自分なりに色々初心者で試行錯誤しながら書いてくださったコードを理解したらちゃんとかけました！今回の中で一番短いコードで汎用性も高いのでBAにしたいですが、すでにつけてしまってる方がいていきなり取り消すのも申し訳ないので今回は感謝をお伝えだけしようとコメントしました。またアドバイスをお願いすることもあるとおもいますが是非よろしくお願い申し上げます！

bsdfan

2021/05/11 23:35

ご丁寧にありがとうございます。ライブラリの機能をつかって簡単に実現するのではなく、自分でデータを実際に動かしていく方法を理解することを重視する場合は、今のBAでよいと思います。プログラミングを覚えるには、両方大切なことです。

行動規範の内容に同意します

店の名前順は変わっていますが、以下で一応できています。

python
1>>> print(df)
2      Ａ    Ｂ   Ｃ   Ｄ   Ｅ
30   本　店  りんご NaN NaN NaN
41   本　店  バナナ NaN NaN NaN
52   本　店  みかん NaN NaN NaN
63   本　店  いちご NaN NaN NaN
74   芦屋店  バナナ NaN NaN NaN
85   西宮店  りんご NaN NaN NaN
96   西宮店  バナナ NaN NaN NaN
107   尼崎店  りんご NaN NaN NaN
118   三宮店  りんご NaN NaN NaN
129   三宮店  バナナ NaN NaN NaN
1310  三宮店  みかん NaN NaN NaN
14>>> count_dict = {}
15>>> def column_name(row):
16...     if row['Ａ'] in count_dict:
17...         count = count_dict[row['Ａ']]
18...     else:
19...         count = 0
20...     count_dict[row['Ａ']] = count + 1
21...     return count
22...
23>>> df_temp = df.drop(['Ｃ', 'Ｄ', 'Ｅ'], axis=1).rename(columns={'Ｂ': '商品'})
24>>>
25>>> df_temp['列名'] = df_temp.apply(column_name, axis=1)
26>>>
27>>> df_result = df_temp.pivot(index='Ａ', columns='列名').reset_index()
28>>> df_result.columns = ['Ａ', 'Ｂ', 'Ｃ', 'Ｄ', 'Ｅ']
29>>> print(df_result)
30     Ａ    Ｂ    Ｃ    Ｄ    Ｅ
310  三宮店  りんご  バナナ  みかん  NaN
321  尼崎店  りんご  NaN  NaN  NaN
332  本　店  りんご  バナナ  みかん  いちご
343  芦屋店  バナナ  NaN  NaN  NaN
354  西宮店  りんご  バナナ  NaN  NaN

投稿2021/05/06 23:29

ppaul

総合スコア24666

eqeqe

2021/05/07 20:22 編集

ppaulさん、有難うございます！頂いたコードはpandas内でピボットを使うといったか考え方でOKでしょうか？！ただ実はこのままコピーさせていただいたら私の理解不足で ValueError: Index contains duplicate entries, cannot reshape が出てしまいました。いずれにしても今後の勉強の一環として一度エクセルも含めてpandasでもピボット関連は勉強したいと思っていたところなので頂いたコードで、ちゃんとエラー回避できるように頑張ってみようかと思います。ありがとうございます、とても勉強になります！

行動規範の内容に同意します

Pythonを使った方法ではありませんが、エクセルのピボットテーブルを活用すればミスなく作業可能かと思います。

＜元データ＞

＜ピボットテーブルで加工＞

＜置換処理等で1を商品名に変更＞

＜商品名を左詰めにする＞

投稿2021/05/06 17:07

meg_

総合スコア10579

eqeqe

2021/05/06 17:17 編集

おお！すごい。ありがとうございます！ピボットテーブルは使ったことがないので此方も目からうろこでしたが、できれば今後の自分のスキルアップのためにもPythonでの動作を希望しており、たどり着かなければｍeg_様から教えていただいた方法を改めて調べてやってみます！ありがとうございます！

eqeqe

2021/05/18 14:08

こんばんは。一通りPYTHONで色々試し終わり、改めてmeg_さんが教えてくださったピボットを練習するためにやってみました。このままピボットをほかの事務作業でもかなり活用できそうだなと感じたので、改めてお礼申し上げたくコメントしました。ピボットは難しそうで避けていたのですが自分のやりたいことから入るとスッっと入ってきて驚きました。ありがとうございました。

行動規範の内容に同意します

あなたの回答