[python] 行数の多いデータフレームで重複する行の行番号を効率よく出力する方法が分からず困っています

Question

### 困っていること
手持ちのデータフレームにおいて、ある行のデータセットが他の行のデータセットと重複している場合が散見され、かつデータ数も2000行以上と、かなり多い状況にあります。

今、私が実現したいことは、

たとえば、
10行目が 100行目,200行目,300行目と重複している
20行目が 700行目,800行目,900行目と重複している
のであれば、以下のように返ってくることを期待しています。

[[10,[100,200,300],
[20,[700,800,900]]

上記のことを実現させるために、自分でもfor文で回して作ってみたのですが、データフレームの行数が2000行以上あるので、異常に時間がかかっており、for文以外のもっと効率的に期待した結果を返す方法を知りたく思っています。どなたかお分かりの方、ご教授いただければ幸いです。



### 私が書いたコード
ちなみに、以下のようなコードを書いたのですが、異常に時間がかかって困っています。何か効率的に重複する行番号を出力する良い方法があれば教えていただきたいです。
```ここに言語を入力
results=[]
cnt=0
err=[]
for i in list(df[df.duplicated(keep=False)].index):
    tmp=[]
    for k in list(df[df.duplicated(keep=False)].index):
        if i!=k:
            if k not in err: 
                if list(df.iloc[i,:])==list(df.iloc[k,:]):
                    tmp.append(k)
                    err.append(k)
                    cnt+=1
    err.append(i)
    if len(tmp)>0:
        results.append([i,tmp])
```

Accepted Answer

こんなのでいかがでしょうか？

```Python
import pandas as pd

df = pd.DataFrame([
	[1, 2, 3, 4],
	[1, 2, 3, 5],
	[1, 2, 3, 6],
	[1, 2, 3, 7],
	[1, 3, 3, 4],
	[1, 2, 3, 4],
	[1, 2, 3, 4],
	[1, 3, 3, 4]
	])

# 重複している行を全て抽出
df_duplicated_all = df[df.duplicated(keep=False)]
# 重複している行の先頭行だけ抽出
df_duplicated_first = df_duplicated_all[~df_duplicated_all.duplicated()]
# 重複している行の先頭行以外を抽出
df_duplicated_rest = df_duplicated_all[df_duplicated_all.duplicated()]

output = []
# 重複している行の先頭行を、1行ずつ処理
for index_first, row in df_duplicated_first.iterrows():
	# このループで注目している先頭行と、同じ行を先頭行以外から抽出
	df_duplicated_rest_for_this_index = df_duplicated_rest[
		(df_duplicated_rest == row).astype(int).min(axis=1).astype(bool)]
	# 結果のindexをリストに加える
	output.append([index_first, df_duplicated_rest_for_this_index.index.values.tolist()])

print(output)
```

Answer

groupbyを使ったら、もう少し簡単に書けそうです。
(前半、toast-uzさんのコードを使っています)

```python
import pandas as pd

df = pd.DataFrame([
    [1, 2, 3, 4],
    [1, 2, 3, 5],
    [1, 2, 3, 6],
    [1, 2, 3, 7],
    [1, 3, 3, 4],
    [1, 2, 3, 4],
    [1, 2, 3, 4],
    [1, 3, 3, 4]
    ])

# 重複している行を全て抽出
df_duplicated_all = df[df.duplicated(keep=False)]

# 全カラムを使ってgroupbyして、それぞれのグループのインデックスをリストで抽出
groups = df_duplicated_all.groupby(list(df_duplicated_all.columns), as_index=False)
output = [list(d.index) for _, d in groups]

print(output)
# [[0, 5, 6], [4, 7]]

# 先頭と、それ以降をわける
output = [[l[0], l[1:]] for l in output]
print(output)
# [[0, [5, 6]], [4, [7]]]
```

困っていること

私が書いたコード

関連した質問