str型はdrop_duplicates()できない？

前提・実現したいこと

データの中にあるidの重複を削除し、
残ったidごとに1を付与するフラグを立てたいと
考えております。
そこで以下で示す関数を定義したのですが、
予期せぬエラーが起きてしまいました。

発生している問題・エラーメッセージ

AttributeError                            Traceback (most recent call last)
<ipython-input-53-6efcfb21eace> in <module>
      4     return 1
      5 
----> 6 data['first_apply'] = data['uid'].apply(apply)

c:\users\lib\site-packages\pandas\core\series.py in apply(self, func, convert_dtype, args, **kwds)
   4036             else:
   4037                 values = self.astype(object).values
-> 4038                 mapped = lib.map_infer(values, f, convert=convert_dtype)
   4039 
   4040         if len(mapped) and isinstance(mapped[0], Series):

pandas\_libs\lib.pyx in pandas._libs.lib.map_infer()

<ipython-input-53-6efcfb21eace> in apply(first)
      1 #最初の応募フラグ
      2 def apply(first):
----> 3     first.drop_duplicates
      4     return 1
      5 

AttributeError: 'str' object has no attribute 'drop_duplicates'

該当のソースコード

Python
1def apply(first):
2    first.drop_duplicates
3    return 1
4
5data['first_apply'] = data['uid'].apply(apply)

uidはobject型になっています。
sampleですが、
uid
u2200 ＊これを残す
u2200　＊削除　
u2200　＊削除
u2111　＊これを残す
u2111　＊削除　
u2009　＊これを残す
u2009　＊削除　
u2001　＊これを残す
というデータを
uid first_apply
u2200 1
u2111 1
u2009 1
u2001 1

のようにしたいと考えています。

試したこと

Python
1drop = data['uid'].drop_duplicates
2
3def apply(first):
4    if first == drop:
5        return 1
6    else:
7        return 0
8    
9data['first_apply'] = data['uid'].apply(apply)

こうも書いてみましたしたが、
フラグがすべて０になってしまい、
得たい結果とは違うものになってしまいました。

そもそもこのコード自体あまり
効率的ではないかもしれないので、
そのあたりもご意見をお聞かせできればと思います。

何卒宜しくお願い致します。

tiitoi

2019/08/29 04:41

処理前のデータ、処理したあとの希望する結果を質問欄に追記していただけますか。(サンプルでも構いません)

Pablito

2019/08/29 05:04

tiitoiさんご質問ありがとうございます。質問を修正致しましたのでご確認お願いします。

行動規範の内容に同意します

回答1件

ベストアンサー

DataFrame から特定の列の重複を削除したい場合は DataFrame.drop_duplicates をお使いください。

DataFrame.drop_duplicates(重複を削除する列名)

コード

python
1import pandas as pd
2
3df = pd.DataFrame(
4    {"uid": ["u2200", "u2200", "u2111", "u2111", "u2009", "u2009", "u2001"]}
5)
6print(df)
7#      uid
8# 0  u2200
9# 1  u2200
10# 2  u2111
11# 3  u2111
12# 4  u2009
13# 5  u2009
14# 6  u2001
15
16df2 = df.drop_duplicates("uid")
17print(df2)
18#      uid
19# 0  u2200
20# 2  u2111
21# 4  u2009
22# 6  u2001

エラーの発生した原因について

これは関数の中でやろうとしていることが問題なのでしょうか？

質問のコードで1つずつ処理の流れを追っていくと、

data['uid'] で DataFrame の列 uid を Series オブジェクトで取得する。

import pandas as pd

df = pd.DataFrame(
    {"uid": ["u2200", "u2200", "u2111", "u2111", "u2009", "u2009", "u2001"]}
)
print(df["uid"])
# 0    u2200
# 1    u2200
# 2    u2111
# 3    u2111
# 4    u2009
# 5    u2009
# 6    u2001
# Name: uid, dtype: object

Series オブジェクトの apply を呼び出しているので、Series オブジェクトの各要素が1つずつ apply に指定した関数に渡される。

なので、apply 関数 (Series.apply ではなく、質問者さんが作成した方) の first 引数には Python の str 型のオブジェクトが渡ってきます。

str クラスには drop_duplicates という Attribute は存在しないので、以下のエラーになります。

python
1def apply(first):  #← first に渡されるのは str (例: "u2200")
2    first.drop_duplicates #← ここでエラー発生
3    return 1

AttributeError: 'str' object has no attribute 'drop_duplicates'

属性エラー: str オブジェクトは drop_duplicates という属性を持っていません。

追記

もしかして、質問者さんがやりたいことは「重複を削除する」ではなく、「重複する場合は最初の要素に1、それ以外は0のフラグを立てた列を追加する」ということでしょうか？

pandas.DataFrame.duplicated — pandas 0.25.1 documentation

python
1import pandas as pd
2
3df = pd.DataFrame(
4    {"uid": ["u2200", "u2200", "u2200", "u2111", "u2111", "u2009", "u2009", "u2001"]}
5)
6
7df["first_apply"] = (~df.duplicated("uid", keep="first")).astype(int)
8
9print(df)
10#      uid  first_apply
11# 0  u2200            1
12# 1  u2200            0
13# 2  u2200            0
14# 3  u2111            1
15# 4  u2111            0
16# 5  u2009            1
17# 6  u2009            0
18# 7  u2001            1

参考文献

pandas.DataFrame.drop_duplicates — pandas 0.25.1 documentation

pandas の質問をする際に推奨される形式

行いたい処理

重複する場合は最初の要素に1、それ以外は0のフラグを立てた列を追加する

入力の Data Frame

希望する Data Frame

     uid  first_apply
0  u2200            1
1  u2200            0
2  u2200            0
3  u2111            1
4  u2111            0
5  u2009            1
6  u2009            0
7  u2001            1

投稿2019/08/29 05:24

編集2019/08/29 05:51

tiitoi

総合スコア21960

Pablito

2019/08/29 05:28

回答ありがとうございます。質問のコードにもあるように定義したい関数の中に first.drop_duplicates と書いており、エラーがAttributeError: 'str' object has no attribute 'drop_duplicates' と出ています。つまり、drop_duplicatesを使おうとしてエラーが起きてしまったということです。これは関数の中でやろうとしていることが問題なのでしょうか？