Pandasで重複指定した行で条件付けした行を削除したい。

前提・実現したいこと

Pandasで指定した行を削除したいです。

No	商品	現在種類	更新種類
1	みかん	A	B
2	みかん	B	C
3	ぶどう	B	A
4	すいか	C	C

これを

No	商品	現在種類	更新種類
2	みかん	B	C
3	ぶどう	B	A
4	すいか	C	C

したいです。

言葉で説明するのが難しいですが
削除条件は商品名が同じで、更新種類と現在種類が存在する場合は、更新種類のデータを削除する。
例で言うと
データNo1,2みかんのデータで、
No2の現在種類：Bがあるので、No1の更新種類の行を削除する。

テストデータ

txt = """
No,商品,現在種類,更新種類
1,みかん,A,B
2,みかん,B ,C
3,りんご,B,A
4,すいか,C,C
"""
import io
import pandas as pd
df = pd.read_table(io.StringIO(txt), sep=",",index_col=0)

meg_

2020/09/07 14:43

> データNo1,2みかんのデータで、 > No2の現在種類：Bがあるので、No1の更新種類の行を削除する。もう少し説明してもらえませんか？

kenone

2020/09/07 16:06

わかりづらくすいません。データで言うと商品：みかん（No1,No2）重複の中で、更新種類：Bが、現在種類に存在していればその行を削除としたいのです。伝わりましたでしょうか？

meg_

2020/09/07 16:47

やっと分かりました。方法としてはgroupbyしてその中でループ処理でしょうか。

kenone

2020/09/07 23:07

回答ありがとうございます。 groupbyを確認したところグループ化するだけなので結局はループで１つ１つ判断する方法しか無いということですね。。。

行動規範の内容に同意します

回答2件

python
1import pandas as pd
2
3df = pd.DataFrame({'No':[1,2,3,4],'商品':['みかん','みかん','ぶどう','すいか'],'現在種類':['A','B','B','C'],'更新種類':['B','C','A','C']})
4print(df)
5#   No   商品 現在種類 更新種類
6#0   1  みかん    A    B
7#1   2  みかん    B    C
8#2   3  ぶどう    B    A
9#3   4  すいか    C    C
10
11df = df.merge(df.groupby('商品')['更新種類'].apply(list).apply(lambda x: ''.join(x)), on='商品')
12df['tmp'] = df['更新種類_y'] + df['現在種類']
13df['tmp'] = df['tmp'].apply(lambda x: ''.join(set(x)))
14df['count'] = df.groupby('商品')['No'].transform('count')
15df = df[~(~(df['tmp'] == df['更新種類_y']) & (df['count'] > 1))]
16df = df.drop(['更新種類_y','tmp','count'], axis=1)
17df = df.rename(columns={'更新種類_x':'更新種類'})
18print(df)
19#No	商品	現在種類	更新種類
20#1	2	みかん	B	C
21#2	3	ぶどう	B	A
22#3	4	すいか	C	C

投稿2020/09/08 13:15

meg_

総合スコア10580

kenone

2020/09/09 00:57

ありがとうございます。すごいですね。 pandasでここまでできることがわかりました。

meg_

2020/09/09 04:12

データ数が多い場合はループしない方が早いです。

行動規範の内容に同意します

ベストアンサー

Python
1import pandas as pd
2import io
3
4txt = """
5No,商品,現在種類,更新種類
61,みかん,A,B
72,みかん,B,C
83,りんご,B,A
94,すいか,C,C
10"""
11
12txt2 = """
13No,商品,現在種類,更新種類
141,みかん,A,B
152,みかん,B,C
163,みかん,C,D
174,りんご,A,Z
185,りんご,B,A
196,すいか,C,C
207,すいか,C,D
21"""
22
23df = pd.read_table(io.StringIO(txt), sep=",", index_col=0)
24# print(df)
25
26dfn = df.copy()
27for _, group in df.groupby('商品'):
28    if len(group) <= 1:
29        continue
30    current = group.現在種類.tolist()
31    for row in group.itertuples():
32        if row.更新種類 in current:
33            dfn = dfn.drop(row.Index, axis=0)
34print(dfn)

txtに対しては、

result
1     商品 現在種類 更新種類
2No
32   みかん    B    C
43   りんご    B    A
54   すいか    C    C

txt2に対しては、

result
1     商品 現在種類 更新種類
2No
33   みかん    C    D
44   りんご    A    Z
57   すいか    C    D

投稿2020/09/08 00:53

Daregada

総合スコア11990

kenone

2020/09/09 00:48

早い回答ありがとうございました。シンプルで良いですね。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Pandasで重複指定した行で条件付けした行を削除したい。

前提・実現したいこと

関連した質問