回答編集履歴

2019/08/29 05:51

投稿

スコア21960

test CHANGED Viewed

@@ -201,3 +201,75 @@
 * [pandas.DataFrame.drop_duplicates — pandas 0.25.1 documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html)
+----
+## pandas の質問をする際に推奨される形式
+### 行いたい処理
+重複する場合は最初の要素に1、それ以外は0のフラグを立てた列を追加する
+### 入力の Data Frame
+```
+     uid
+0  u2200
+1  u2200
+2  u2200
+3  u2111
+4  u2111
+5  u2009
+6  u2009
+7  u2001
+```
+### 希望する Data Frame
+```
+     uid  first_apply
+0  u2200            1
+1  u2200            0
+2  u2200            0
+3  u2111            1
+4  u2111            0
+5  u2009            1
+6  u2009            0
+7  u2001            1
+```

2019/08/29 05:51

投稿

スコア21960

test CHANGED Viewed

@@ -160,13 +160,13 @@
 df = pd.DataFrame(
-    {"uid": ["u2200", "u2200", "u2111", "u2111", "u2009", "u2009", "u2001"]}
+    {"uid": ["u2200", "u2200", "u2200", "u2111", "u2111", "u2009", "u2009", "u2001"]}
 )
-df["first_apply"] = df.duplicated("uid", keep="last").astype(int)
+df["first_apply"] = (~df.duplicated("uid", keep="first")).astype(int)
@@ -178,15 +178,17 @@
 # 1  u2200            0
+# 2  u2200            0
-# 2  u2111            1
+# 3  u2111            1
-# 3  u2111            0
+# 4  u2111            0
-# 4  u2009            1
+# 5  u2009            1
-# 5  u2009            0
+# 6  u2009            0
-# 6  u2001            0
+# 7  u2001            1
 ```

2019/08/29 05:47

投稿

スコア21960

test CHANGED Viewed

@@ -140,6 +140,60 @@
+## 追記
+もしかして、質問者さんがやりたいことは「重複を削除する」ではなく、「重複する場合は最初の要素に1、それ以外は0のフラグを立てた列を追加する」ということでしょうか？
+[pandas.DataFrame.duplicated — pandas 0.25.1 documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html)
+```python
+import pandas as pd
+df = pd.DataFrame(
+    {"uid": ["u2200", "u2200", "u2111", "u2111", "u2009", "u2009", "u2001"]}
+)
+df["first_apply"] = df.duplicated("uid", keep="last").astype(int)
+print(df)
+#      uid  first_apply
+# 0  u2200            1
+# 1  u2200            0
+# 2  u2111            1
+# 3  u2111            0
+# 4  u2009            1
+# 5  u2009            0
+# 6  u2001            0
+```
 ## 参考文献

2019/08/29 05:45

投稿

スコア21960

test CHANGED Viewed

@@ -60,6 +60,86 @@
+## エラーの発生した原因について
+> これは関数の中でやろうとしていることが問題なのでしょうか？
+質問のコードで1つずつ処理の流れを追っていくと、
+1. data['uid'] で DataFrame の列 uid を Series オブジェクトで取得する。
+```
+import pandas as pd
+df = pd.DataFrame(
+    {"uid": ["u2200", "u2200", "u2111", "u2111", "u2009", "u2009", "u2001"]}
+)
+print(df["uid"])
+# 0    u2200
+# 1    u2200
+# 2    u2111
+# 3    u2111
+# 4    u2009
+# 5    u2009
+# 6    u2001
+# Name: uid, dtype: object
+```
+2. Series オブジェクトの apply を呼び出しているので、Series オブジェクトの各要素が1つずつ apply に指定した関数に渡される。
+なので、apply 関数 (Series.apply ではなく、質問者さんが作成した方) の first 引数には Python の str 型のオブジェクトが渡ってきます。
+3. str クラスには drop_duplicates という Attribute は存在しないので、以下のエラーになります。
+```python
+def apply(first):  #← first に渡されるのは str (例: "u2200")
+    first.drop_duplicates #← ここでエラー発生
+    return 1
+```
+> AttributeError: 'str' object has no attribute 'drop_duplicates'
+> 属性エラー: str オブジェクトは drop_duplicates という属性を持っていません。
 ## 参考文献

2019/08/29 05:39

投稿

スコア21960

test CHANGED Viewed

@@ -21,6 +21,24 @@
     {"uid": ["u2200", "u2200", "u2111", "u2111", "u2009", "u2009", "u2001"]}
 )
+print(df)
+#      uid
+# 0  u2200
+# 1  u2200
+# 2  u2111
+# 3  u2111
+# 4  u2009
+# 5  u2009
+# 6  u2001