質問編集履歴

4

わかりやすく説明するため

2020/09/23 20:12

投稿

mini1988
mini1988

スコア56

test CHANGED
File without changes
test CHANGED
@@ -1,6 +1,10 @@
1
1
  ### 困っていること
2
2
 
3
- 手持ちで持っているデータフレームにおいて、ある行のデータセットが他の行のデータセットと重複している場合が散見され、データ数もかなり多い状況にあります。
3
+ 手持ちデータフレームにおいて、ある行のデータセットが他の行のデータセットと重複している場合が散見され、かつデータ数も2000行以上と、かなり多い状況にあります。
4
+
5
+
6
+
7
+ 今、私が実現したいことは、
4
8
 
5
9
 
6
10
 

3

もっとわかりやすく説明するため

2020/09/23 20:12

投稿

mini1988
mini1988

スコア56

test CHANGED
File without changes
test CHANGED
@@ -1,6 +1,6 @@
1
1
  ### 困っていること
2
2
 
3
- 行数の多いデータフレームにおいて、行番号(インデックス)小さいもに対して重複している行番号(インデックス)を一覧として出力するにはどうすばいいのでしょうか。自分でもfor文で回して作ってみたのですが、データフレームの行が2000行以上あるので、異常に時間がかってお、for文で書く以外の方法を知りたです。どなたかお分かの方、ご教授いただければ幸いです。
3
+ 手持ちで持ってデータフレームにおいて、あるータセトが他データセットと重複している場合が散見され、データ数状況にあす。
4
4
 
5
5
 
6
6
 
@@ -17,6 +17,16 @@
17
17
  [[10,[100,200,300],
18
18
 
19
19
  [20,[700,800,900]]
20
+
21
+
22
+
23
+ 上記のことを実現させるために、自分でもfor文で回して作ってみたのですが、データフレームの行数が2000行以上あるので、異常に時間がかかっており、for文以外のもっと効率的に期待した結果を返す方法を知りたく思っています。どなたかお分かりの方、ご教授いただければ幸いです。
24
+
25
+
26
+
27
+
28
+
29
+
20
30
 
21
31
  ### 私が書いたコード
22
32
 

2

一部変更のため

2020/09/23 20:10

投稿

mini1988
mini1988

スコア56

test CHANGED
File without changes
test CHANGED
@@ -30,11 +30,11 @@
30
30
 
31
31
  err=[]
32
32
 
33
- for i in list(df[~df.duplicated()].index):
33
+ for i in list(df[df.duplicated(keep=False)].index):
34
34
 
35
35
  tmp=[]
36
36
 
37
- for k in range(len(df)):
37
+ for k in list(df[df.duplicated(keep=False)].index):
38
38
 
39
39
  if i!=k:
40
40
 
@@ -50,6 +50,8 @@
50
50
 
51
51
  err.append(i)
52
52
 
53
+ if len(tmp)>0:
54
+
53
- results.append([i,tmp])
55
+ results.append([i,tmp])
54
56
 
55
57
  ```

1

日本語を分かりやすくするため

2020/09/23 19:46

投稿

mini1988
mini1988

スコア56

test CHANGED
@@ -1 +1 @@
1
- [python] 行数の多いデータフレームで重複する行番号を効率よく出力する方法が分からず困っています
1
+ [python] 行数の多いデータフレームで重複する行の行番号を効率よく出力する方法が分からず困っています
test CHANGED
File without changes