Pandasを使用した重複データの削除（値が入っていないものは対象としない）

実現したいこと

Pandasを利用して
CODEに値が無いものは重複対象とせず、値がある場合のみ重複データの削除を行いたいです。

TITLE	CODE
すいか	AAA
すいか	AAA
みかん
ぶどう
ぶどう	BBB

↓

TITLE1	CODE
すいか	AAA
みかん
ぶどう
ぶどう	BBB

CODEが重複しているAAAはの１つは削除
みかんとぶどうはCODEが無いので削除対象しない。
（BBBは重複していないので対象外）

該当のソースコード

import pandas as pd

df = pd.DataFrame({'TITLE':['すいか','すいか','みかん','ぶどう','ぶどう'],'CODE':['AAA','AAA',"","",'BBB']})

df[~df.duplicated(subset='CODE')]

試したこと

上記ソースでは空白が対象となってしまい。
削除対象になっています。

df[df[~df["CODE"].isnull()].duplicated(subset='CODE')]
とかやってみましたが、うまく動作できませんでした。

上記のサンプルソースは空白を入れていますが、
実際のデータはxlsxファイルから読み取っており、
空白部分はNaNになっているようです。
（サンプルソースではNaNが設定ができなくて空白にしています）

初歩的な質問ですいませんが、回答頂けると助かります。

行動規範の内容に同意します

回答1件

ベストアンサー

※ データを1行追加しています

python
1import pandas as pd
2
3df = pd.DataFrame({'TITLE':['すいか','すいか','みかん','みかん','ぶどう','ぶどう'],'CODE':['AAA','AAA',"","","",'BBB']})
4
5dfx = df[~df.duplicated()|df['CODE'].eq('')]
6print(df)
7print(dfx)

TITLE	CODE
すいか	AAA
すいか	AAA
みかん
みかん
ぶどう
ぶどう	BBB

dfx

TITLE	CODE
すいか	AAA
みかん
みかん
ぶどう
ぶどう	BBB

投稿2022/08/19 15:39

melian

総合スコア19714

kenone

2022/08/19 23:57

早速の回答ありがとうございました。シンプルでわかりやすいです。助かりました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！