質問編集履歴

わかりやすく説明するため

2020/09/23 20:12

投稿

mini1988

スコア56

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,6 +1,8 @@
 ### 困っていること
-手持ちで持っているデータフレームにおいて、ある行のデータセットが他の行のデータセットと重複している場合が散見され、データ数もかなり多い状況にあります。
+手持ちのデータフレームにおいて、ある行のデータセットが他の行のデータセットと重複している場合が散見され、かつデータ数も2000行以上と、かなり多い状況にあります。
+今、私が実現したいことは、
 たとえば、
 10行目が 100行目,200行目,300行目と重複している
 20行目が 700行目,800行目,900行目と重複している

もっとわかりやすく説明するため

2020/09/23 20:12

投稿

mini1988

スコア56

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,5 +1,5 @@
 ### 困っていること
-行数の多いデータフレームにおいて、行番号（インデックス）の小さいものに対して重複している行番号（インデックス）を一覧として出力するにはどうすればいいのでしょうか。自分でもfor文で回して作ってみたのですが、データフレームの行数が2000行以上あるので、異常に時間がかかっており、for文で書く以外の方法を知りたいです。どなたかお分かりの方、ご教授いただければ幸いです。
+手持ちで持っているデータフレームにおいて、ある行のデータセットが他の行のデータセットと重複している場合が散見され、データ数もかなり多い状況にあります。
 たとえば、
 10行目が 100行目,200行目,300行目と重複している
@@ -8,6 +8,11 @@
 [[10,[100,200,300],
 [20,[700,800,900]]
+上記のことを実現させるために、自分でもfor文で回して作ってみたのですが、データフレームの行数が2000行以上あるので、異常に時間がかかっており、for文以外のもっと効率的に期待した結果を返す方法を知りたく思っています。どなたかお分かりの方、ご教授いただければ幸いです。
 ### 私が書いたコード
 ちなみに、以下のようなコードを書いたのですが、異常に時間がかかって困っています。何か効率的に重複する行番号を出力する良い方法があれば教えていただきたいです。
 ```ここに言語を入力

一部変更のため

2020/09/23 20:10

投稿

mini1988

スコア56

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -14,9 +14,9 @@
 results=[]
 cnt=0
 err=[]
-for i in list(df[~df.duplicated()].index):
+for i in list(df[df.duplicated(keep=False)].index):
     tmp=[]
-    for k in range(len(df)):
+    for k in list(df[df.duplicated(keep=False)].index):
         if i!=k:
             if k not in err:
                 if list(df.iloc[i,:])==list(df.iloc[k,:]):
@@ -24,5 +24,6 @@
                     err.append(k)
                     cnt+=1
     err.append(i)
+    if len(tmp)>0:
-    results.append([i,tmp])
+        results.append([i,tmp])
 ```

日本語を分かりやすくするため

2020/09/23 19:46

投稿

mini1988

スコア56

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- [python] 行数の多いデータフレームで重複する行番号を効率よく出力する方法が分からず困っています
1	+ [python] 行数の多いデータフレームで重複する行の行番号を効率よく出力する方法が分からず困っています

body CHANGED Viewed

File without changes