[python] 行数の多いデータフレームで重複する行の行番号を効率よく出力する方法が分からず困っています

困っていること

手持ちのデータフレームにおいて、ある行のデータセットが他の行のデータセットと重複している場合が散見され、かつデータ数も2000行以上と、かなり多い状況にあります。

今、私が実現したいことは、

たとえば、
10行目が 100行目,200行目,300行目と重複している
20行目が 700行目,800行目,900行目と重複している
のであれば、以下のように返ってくることを期待しています。

[[10,[100,200,300],
[20,[700,800,900]]

上記のことを実現させるために、自分でもfor文で回して作ってみたのですが、データフレームの行数が2000行以上あるので、異常に時間がかかっており、for文以外のもっと効率的に期待した結果を返す方法を知りたく思っています。どなたかお分かりの方、ご教授いただければ幸いです。

私が書いたコード

ちなみに、以下のようなコードを書いたのですが、異常に時間がかかって困っています。何か効率的に重複する行番号を出力する良い方法があれば教えていただきたいです。

results=[]
cnt=0
err=[]
for i in list(df[df.duplicated(keep=False)].index):
    tmp=[]
    for k in list(df[df.duplicated(keep=False)].index):
        if i!=k:
            if k not in err: 
                if list(df.iloc[i,:])==list(df.iloc[k,:]):
                    tmp.append(k)
                    err.append(k)
                    cnt+=1
    err.append(i)
    if len(tmp)>0:
        results.append([i,tmp])

jeanbiego

2020/09/23 23:12

列数はいくつあるのでしょうか。

mini1988

2020/09/23 23:47

列数は、ざっと200くらいあります。

jeanbiego

2020/09/24 00:13

ありがとうございます。でも、すでにtoast-uzさんが処理速そうなコードで回答されてますね。

行動規範の内容に同意します

回答2件

groupbyを使ったら、もう少し簡単に書けそうです。
(前半、toast-uzさんのコードを使っています)

python
1import pandas as pd
2
3df = pd.DataFrame([
4    [1, 2, 3, 4],
5    [1, 2, 3, 5],
6    [1, 2, 3, 6],
7    [1, 2, 3, 7],
8    [1, 3, 3, 4],
9    [1, 2, 3, 4],
10    [1, 2, 3, 4],
11    [1, 3, 3, 4]
12    ])
13
14# 重複している行を全て抽出
15df_duplicated_all = df[df.duplicated(keep=False)]
16
17# 全カラムを使ってgroupbyして、それぞれのグループのインデックスをリストで抽出
18groups = df_duplicated_all.groupby(list(df_duplicated_all.columns), as_index=False)
19output = [list(d.index) for _, d in groups]
20
21print(output)
22# [[0, 5, 6], [4, 7]]
23
24# 先頭と、それ以降をわける
25output = [[l[0], l[1:]] for l in output]
26print(output)
27# [[0, [5, 6]], [4, [7]]]

投稿2020/09/24 01:31

編集2020/09/24 01:38

bsdfan

総合スコア4794

mini1988

2020/09/24 02:00

早速回答いただきまして、ありがとうございます。提供していただいたコードを動かして、やりたいことがかなり迅速にできるようになりました。本来はベストアンサーをお付けしたかったのですが、お許しください。素敵なコードをありがとうございます。

toast-uz

2020/09/24 03:06

お見事です！

行動規範の内容に同意します

ベストアンサー

こんなのでいかがでしょうか？

Python
1import pandas as pd
2
3df = pd.DataFrame([
4	[1, 2, 3, 4],
5	[1, 2, 3, 5],
6	[1, 2, 3, 6],
7	[1, 2, 3, 7],
8	[1, 3, 3, 4],
9	[1, 2, 3, 4],
10	[1, 2, 3, 4],
11	[1, 3, 3, 4]
12	])
13
14# 重複している行を全て抽出
15df_duplicated_all = df[df.duplicated(keep=False)]
16# 重複している行の先頭行だけ抽出
17df_duplicated_first = df_duplicated_all[~df_duplicated_all.duplicated()]
18# 重複している行の先頭行以外を抽出
19df_duplicated_rest = df_duplicated_all[df_duplicated_all.duplicated()]
20
21output = []
22# 重複している行の先頭行を、1行ずつ処理
23for index_first, row in df_duplicated_first.iterrows():
24	# このループで注目している先頭行と、同じ行を先頭行以外から抽出
25	df_duplicated_rest_for_this_index = df_duplicated_rest[
26		(df_duplicated_rest == row).astype(int).min(axis=1).astype(bool)]
27	# 結果のindexをリストに加える
28	output.append([index_first, df_duplicated_rest_for_this_index.index.values.tolist()])
29
30print(output)