質問編集履歴
4
わかりやすく説明するため
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,6 +1,10 @@
|
|
1
1
|
### 困っていること
|
2
2
|
|
3
|
-
手持ち
|
3
|
+
手持ちのデータフレームにおいて、ある行のデータセットが他の行のデータセットと重複している場合が散見され、かつデータ数も2000行以上と、かなり多い状況にあります。
|
4
|
+
|
5
|
+
|
6
|
+
|
7
|
+
今、私が実現したいことは、
|
4
8
|
|
5
9
|
|
6
10
|
|
3
もっとわかりやすく説明するため
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,6 +1,6 @@
|
|
1
1
|
### 困っていること
|
2
2
|
|
3
|
-
|
3
|
+
手持ちで持っているデータフレームにおいて、ある行のデータセットが他の行のデータセットと重複している場合が散見され、データ数もかなり多い状況にあります。
|
4
4
|
|
5
5
|
|
6
6
|
|
@@ -17,6 +17,16 @@
|
|
17
17
|
[[10,[100,200,300],
|
18
18
|
|
19
19
|
[20,[700,800,900]]
|
20
|
+
|
21
|
+
|
22
|
+
|
23
|
+
上記のことを実現させるために、自分でもfor文で回して作ってみたのですが、データフレームの行数が2000行以上あるので、異常に時間がかかっており、for文以外のもっと効率的に期待した結果を返す方法を知りたく思っています。どなたかお分かりの方、ご教授いただければ幸いです。
|
24
|
+
|
25
|
+
|
26
|
+
|
27
|
+
|
28
|
+
|
29
|
+
|
20
30
|
|
21
31
|
### 私が書いたコード
|
22
32
|
|
2
一部変更のため
test
CHANGED
File without changes
|
test
CHANGED
@@ -30,11 +30,11 @@
|
|
30
30
|
|
31
31
|
err=[]
|
32
32
|
|
33
|
-
for i in list(df[
|
33
|
+
for i in list(df[df.duplicated(keep=False)].index):
|
34
34
|
|
35
35
|
tmp=[]
|
36
36
|
|
37
|
-
for k in
|
37
|
+
for k in list(df[df.duplicated(keep=False)].index):
|
38
38
|
|
39
39
|
if i!=k:
|
40
40
|
|
@@ -50,6 +50,8 @@
|
|
50
50
|
|
51
51
|
err.append(i)
|
52
52
|
|
53
|
+
if len(tmp)>0:
|
54
|
+
|
53
|
-
results.append([i,tmp])
|
55
|
+
results.append([i,tmp])
|
54
56
|
|
55
57
|
```
|
1
日本語を分かりやすくするため
test
CHANGED
@@ -1 +1 @@
|
|
1
|
-
[python] 行数の多いデータフレームで重複する行番号を効率よく出力する方法が分からず困っています
|
1
|
+
[python] 行数の多いデータフレームで重複する行の行番号を効率よく出力する方法が分からず困っています
|
test
CHANGED
File without changes
|