python CSVの重複データ取得とその行番号を取得したい

Question

以下のようなCSVデータがあるとします。

```ここに言語を入力
【CSVデータ】
ID 氏名　生年月日　電話番号
00001,山田太郎,1980-01-01,09012345678
00002,佐藤花子,1982-11-11,09087654321
00001,山田太郎,1980-01-01,09012345678-
00003,田中桃子,1975-12-22,09012346666
```

【やりたいこと】
pythonでCSVデータの重複データ抽出及び、重複したCSVの行番号を取得したいです。

【想定する取得結果】
00001,山田太郎,1980-01-01,09012345678
2行目,4行目

【MEMO】
pandasを使用したらINDEXしかとれないので、他に方法があるのか質問させていただきました。
INDEXだからヘッダ分＋1すればいいじゃないかという話もあるかもしれませんが。。

Accepted Answer

```python
import pandas as pd
import io

data = """
ID,氏名,生年月日,電話番号
00001,山田太郎,1980-01-01,09012345678
00002,佐藤花子,1982-11-11,09087654321
00001,山田太郎,1980-01-01,09012345678
00003,田中桃子,1975-12-22,09012346666
"""

df = pd.read_csv(io.StringIO(data))

# 重複のみ抽出
df1 = df[df.duplicated(keep=False)]

# IDでグループ化、indexをリスト化
df2 = df1.reset_index().groupby(by="ID")["index"].apply(list)
df2.name = "重複"

# 重複の最初のみ抽出
df3 = df1.groupby(by="ID").first()

# indexのリストを結合
df4 = pd.merge(df3, df2, on="ID")
```

|   ID | 氏名     | 生年月日   |   電話番号 | 重複   |
|-----:|:---------|:-----------|-----------:|:-------|
|    1 | 山田太郎 | 1980-01-01 | 9012345678 | [0, 2] |

Answer

ヘッダかあったりなかったり、というのは考慮していませんが、重複の行を抽出をしつつ重複したindexのリストも情報として付加するコードを作ってみました。

```Python
import pandas as pd
import io

data = ('''
ID,氏名,生年月日,電話番号
00001,山田太郎,1980-01-01,09012345678
00002,佐藤花子,1982-11-11,09087654321
00001,山田太郎,1980-01-01,09012345678
00003,田中桃子,1975-12-22,09012346666
''')

df = pd.read_csv(io.StringIO(data))
grouped = df.groupby(df.columns.tolist())

duplicated_groups = []
for _, group in grouped:
    if len(group) <= 1:
        continue
    duplicated_groups.append(group.iloc[0].values.tolist() + [group.index.tolist()])

duplicated_df = pd.DataFrame(duplicated_groups, columns=(df.columns.tolist()+['重複']))
print(duplicated_df)
#   ID    氏名        生年月日        電話番号      重複
#0   1  山田太郎  1980-01-01  9012345678  [0, 2]
```

Answer

```Python
ID = df['ID'].copy()
col = df.columns
df = df.drop('ID', axis=1)
d = df.duplicated(keep='last')
df = df[d]
df['ID'] = ID[d]
df = df.reindex(columns=col)

print(df)
#       ID    氏名        生年月日        電話番号
# 0  00001  山田太郎  1980-01-01  9012345678
```

関連した質問