質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

210閲覧

defで条件を設定しdropしたいが、、、

Pablito

総合スコア71

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2019/08/14 07:57

前提・実現したいこと

購買データでデータ加工の演習をしています。
今、IDと購入日と買上店舗に絞ったData Frameを作り、
同じID×同じ日付×同じ店舗
の組み合わせを一つにまとめたいと考えています。
(下記の例 参考)
cst_id      date_purchase_c Store_code
0 3144054828245 2017-06-14   3001
1 3144054828245 2018-09-22   5026
2 3144054886139 2017-06-18   3001
3 3144054886139 2017-06-18   3001
4 3144054886139 2018-07-21   3042
5 3144054886139 2018-10-28   3042
6 3144055008531 2017-06-11   3001
7 3144055018841 2017-06-13   3001
8 3144055018841 2017-10-28   3220
9 3144055018841 2018-03-15   3001

これを実現するためにdefで関数を作り、
条件で行をdropしていきたいのですが、
うまくいきません。

発生している問題・エラーメッセージ

SyntaxError: invalid syntax

該当のソースコード

Python

1#同ID、同日、同店舗を1回としてカウント 2def count_times(times): 3 if (times['cst_id', 'date_purchase_c', 'Store_code'][0] == times['cst_id', 'date_purchase_c', 'Store_code'][1]) 4 drop

とにもかくにも
表現がわかりません。。。
少しだけでもいいので、ご教示下さい。。。。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

まとめるというのは重複している行を削除したいということでよろしいでしょうか?

そうであれば、drop_duplicates() をお使いください。

pandas.DataFrame.drop_duplicates — pandas 0.25.0 documentation

drop_duplicates(["列A", "列B"]) とした場合、列A、列Bの値が同じ行が複数ある場合、1行のみ残し、重複する他の行は削除されます。

サンプルコード

入力 CSV

csv

1cst_id,date_purchase_c,Store_code 23144054828245,2017-06-14,3001 33144054828245,2018-09-22,5026 43144054886139,2017-06-18,3001 53144054886139,2017-06-18,3001 63144054886139,2018-07-21,3042 73144054886139,2018-10-28,3042 83144055008531,2017-06-11,3001 93144055018841,2017-06-13,3001 103144055018841,2017-10-28,3220 113144055018841,2018-03-15,3001

python

1import pandas as pd 2 3df = pd.read_csv("untitled.txt") 4print(df) 5# cst_id date_purchase_c Store_code 6# 0 3144054828245 2017-06-14 3001 7# 1 3144054828245 2018-09-22 5026 8# 2 3144054886139 2017-06-18 3001 9# 3 3144054886139 2017-06-18 3001 10# 4 3144054886139 2018-07-21 3042 11# 5 3144054886139 2018-10-28 3042 12# 6 3144055008531 2017-06-11 3001 13# 7 3144055018841 2017-06-13 3001 14# 8 3144055018841 2017-10-28 3220 15# 9 3144055018841 2018-03-15 3001 16 17df.drop_duplicates(["cst_id", "date_purchase_c", "Store_code"], inplace=True) 18print(df) 19# cst_id date_purchase_c Store_code 20# 0 3144054828245 2017-06-14 3001 21# 1 3144054828245 2018-09-22 5026 22# 2 3144054886139 2017-06-18 3001 23# 4 3144054886139 2018-07-21 3042 24# 5 3144054886139 2018-10-28 3042 25# 6 3144055008531 2017-06-11 3001 26# 7 3144055018841 2017-06-13 3001 27# 8 3144055018841 2017-10-28 3220 28# 9 3144055018841 2018-03-15 3001

drop_duplicates を行ったあと、重複するインデックス 3, 4 は3が消されて4だけ残っていることがわかるかと思います。

投稿2019/08/14 08:12

tiitoi

総合スコア21956

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Pablito

2019/08/14 08:17

tiitoiさん ご回答ありがとうございます! 確かに単純にdrop_duplicatesしたらよかったですね。 得たい結果が得られました! ありがとうございます!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問