python CSVの重複データ取得とその行番号を取得したい

以下のようなCSVデータがあるとします。

【CSVデータ】
ID 氏名　生年月日　電話番号
00001,山田太郎,1980-01-01,09012345678
00002,佐藤花子,1982-11-11,09087654321
00001,山田太郎,1980-01-01,09012345678-
00003,田中桃子,1975-12-22,09012346666

【やりたいこと】
pythonでCSVデータの重複データ抽出及び、重複したCSVの行番号を取得したいです。

【想定する取得結果】
00001,山田太郎,1980-01-01,09012345678
2行目,4行目

【MEMO】
pandasを使用したらINDEXしかとれないので、他に方法があるのか質問させていただきました。
INDEXだからヘッダ分＋1すればいいじゃないかという話もあるかもしれませんが。。

TakaiY

2020/10/12 09:14

「INDEXだからヘッダ分＋1す」るのではだめな理由は何ですか？

toast-uz

2020/10/12 10:23

「pandasを使用したらINDEXしかとれない」のコードの提示と、その結果に何が不満なのかを記載ください。

aaa_bbb

2020/10/13 00:28

提供されるCSVがヘッダ有と無、両方でくる可能性がありまして、問題となったのは行番号の取得です。実装方法を検討するうえで、事前にCSVヘッダ有無を調べて後からヘッダがあるならINDEXに足す方法と CSVの行番号そのままとる方法はないかと色々調べておりました。＞INDEXしかとれないは書き方に誤りがありました。　重複データもとれております。すみません。

toast-uz

2020/10/13 00:45

「提供されるCSVがヘッダ有と無、両方でくる可能性」こういう、回答に影響を与える情報は、質問文に記載下さい。また、何をもってヘッダかどうかを判定するのか、コード以前に日本語として定義お願いします。

行動規範の内容に同意します

回答3件

ベストアンサー

python
1import pandas as pd
2import io
3
4data = """
5ID,氏名,生年月日,電話番号
600001,山田太郎,1980-01-01,09012345678
700002,佐藤花子,1982-11-11,09087654321
800001,山田太郎,1980-01-01,09012345678
900003,田中桃子,1975-12-22,09012346666
10"""
11
12df = pd.read_csv(io.StringIO(data))
13
14# 重複のみ抽出
15df1 = df[df.duplicated(keep=False)]
16
17# IDでグループ化、indexをリスト化
18df2 = df1.reset_index().groupby(by="ID")["index"].apply(list)
19df2.name = "重複"
20
21# 重複の最初のみ抽出
22df3 = df1.groupby(by="ID").first()
23
24# indexのリストを結合
25df4 = pd.merge(df3, df2, on="ID")

ID	氏名	生年月日	電話番号	重複
1	山田太郎	1980-01-01	9012345678	[0, 2]

投稿2020/10/13 13:46

barobaro

総合スコア1286

aaa_bbb

2020/10/16 02:13

ご回答ありがとうございました！

行動規範の内容に同意します

ヘッダかあったりなかったり、というのは考慮していませんが、重複の行を抽出をしつつ重複したindexのリストも情報として付加するコードを作ってみました。

Python
1import pandas as pd
2import io
3
4data = ('''
5ID,氏名,生年月日,電話番号
600001,山田太郎,1980-01-01,09012345678
700002,佐藤花子,1982-11-11,09087654321
800001,山田太郎,1980-01-01,09012345678
900003,田中桃子,1975-12-22,09012346666
10''')
11
12df = pd.read_csv(io.StringIO(data))
13grouped = df.groupby(df.columns.tolist())
14
15duplicated_groups = []
16for _, group in grouped:
17    if len(group) <= 1:
18        continue
19    duplicated_groups.append(group.iloc[0].values.tolist() + [group.index.tolist()])
20
21duplicated_df = pd.DataFrame(duplicated_groups, columns=(df.columns.tolist()+['重複']))
22print(duplicated_df)
23#   ID    氏名        生年月日        電話番号      重複
24#0   1  山田太郎  1980-01-01  9012345678  [0, 2]

投稿2020/10/13 12:09

toast-uz

総合スコア3266

aaa_bbb

2020/10/16 02:13

ご回答ありがとうございました！

行動規範の内容に同意します

Python
1ID = df['ID'].copy()
2col = df.columns
3df = df.drop('ID', axis=1)
4d = df.duplicated(keep='last')
5df = df[d]
6df['ID'] = ID[d]
7df = df.reindex(columns=col)
8
9print(df)
10#       ID    氏名        生年月日        電話番号
11# 0  00001  山田太郎  1980-01-01  9012345678