[Python] pandasを用いてcsvファイルから行を複数条件で抽出したい。

前提・実現したいこと

はじめまして、質問文に不足があるかもしれませんがご容赦ください。
仮に下のようなcsvファイルがあるとき

番号	名前	年齢	国籍	性別	書類
001	新井	20	日本	女性	A
001	新井	20	日本	女性	B
002	ジム	25	米国	男性	A
003	ジム	25	米国	男性	B
004	王	19	中国	女性	A
004	エレナ	19	豪州	女性	A
005	エレナ	19	豪州	女性	B
006	新井	25	日本	男性	A
007	新井	25	日本	男性	B

[名前][年齢][国籍][性別]が同じペアを抽出し、その後[書類]A,Bで[番号]が同じものを取り除きたい、つまり下の表のようにしたいのです。

番号	名前	年齢	国籍	性別	書類
002	ジム	25	米国	男性	A
003	ジム	25	米国	男性	B
004	エレナ	19	豪州	女性	A
005	エレナ	19	豪州	女性	B
006	新井	25	日本	男性	A
007	新井	25	日本	男性	B

※[補足] 本当に最終的にやりたいことは、[書類Aフォルダ]に入っているファイル名(番号と連動)を、書類Bの番号でリネームすることです。
この場合で言えば、ジムの情報が記録された[002.doc]を[003.doc]に自動でリネームすることをファイル全体に行うこと最終目標です。……可能ですよね？

試したこと

ひとまずpython(3.7.4 Anaconda 3)で下のように入力しました。

Python
1# pandasをインポート
2import pandas as pd
3# CSVファイルを読み込む
4df = pd.read_csv('C:/Users/username/Desktop/PythonProject/A and B.csv', encoding='shift_jis')
5# 重複行を出力
6Data1 = (df[df.duplicated(subset=['名前', '年齢', '国籍', '性別'], keep=False)])
7print(Data1)

これでひとまず

番号	名前	年齢	国籍	性別	書類
001	新井	20	日本	女性	A
001	新井	20	日本	女性	B
002	ジム	25	米国	男性	A
003	ジム	25	米国	男性	B
004	エレナ	19	豪州	女性	A
005	エレナ	19	豪州	女性	B
006	新井	25	日本	男性	A
007	新井	25	日本	男性	B

にできました。しかし、ここから番号の重複、上の表で言えば新井（女性）を除くことが出来ません。

python
1Data4 = (df[df.duplicated(subset=['名前', '年齢', '国籍', '性別'], keep=False)]) ~ (df[df.drop_duplicates(subset=['番号'])])
2print(Data4)

ではSyntaxErrorを起こしてしまいます。簡単な問題なのかもしれませんが、ご教授ください。宜しくおねがいします。

なお、先に番号の被りを取り除くのは不可でおねがいします。上の表に例示はしませんでしたが、例えば

番号	名前
002	ジム
003	ジム
003	エレナ
004	エレナ

のような場合、先に番号の被りを取り除いてしまうとジムとエレナが消えてしまいます。個人特定が先でないと(多分)だめなんです。

meg_

2020/01/06 15:50

subsetに「番号」を追加するのでは駄目なんですか？

Touiro

2020/01/06 16:28

ありがとうございます。 subsetに[番号]を追加する、つまり (df[df.duplicated(subset=['名前', '年齢', '国籍', '性別', '番号'], keep=False)]) ということでしょうか？これですと、番号が一致しているものが出力されてしまう、つまり例示した表で言えば 001 新井　のみが出力されてしまうと認識しています。

行動規範の内容に同意します

回答2件

ベストアンサー

現状と全く違うアプローチですが、

本当に最終的にやりたいことは、[書類Aフォルダ]に入っているファイル名(番号と連動)を、書類Bの番号でリネームすることです。

というのであれば DataFrame.pivot_table()を使用して

名前	年齢	国籍	性別	(番号,A)	(番号,B)
エレナ	19	豪州	女性	004	005
ジム	25	米国	男性	002	003
新井	20	日本	女性	001	001
新井	25	日本	男性	006	007
王	19	中国	女性	004	NaN

のようなデータフレームに変換し、

(番号,A)列がNaN ではない
(番号,B)列がNaN ではない
(番号,A)列の値と(番号,B)列の値が等しくない

という条件を元にフィルタリングし

名前	年齢	国籍	性別	(番号,A)	(番号,B)
エレナ	19	豪州	女性	004	005
ジム	25	米国	男性	002	003
新井	25	日本	男性	006	007

のようなデータフレームを導くというのはどうでしょうか。

これであれば、ループなどで表から行毎にデータを取得してリネーム処理をすることが容易になります。

以下は動作サンプル

Python
1import pandas as pd
2import io
3
4csv = """
5番号,名前,年齢,国籍,性別,書類
6001,新井,20,日本,女性,A
7001,新井,20,日本,女性,B
8002,ジム,25,米国,男性,A
9003,ジム,25,米国,男性,B
10004,王,19,中国,女性,A
11004,エレナ,19,豪州,女性,A
12005,エレナ,19,豪州,女性,B
13006,新井,25,日本,男性,A
14007,新井,25,日本,男性,B
15"""
16# データ読み込み処理
17df = pd.read_csv(io.StringIO(csv), dtype={'番号':str})
18
19# データ変換処理
20df = df.pivot_table(index=['名前','年齢','国籍','性別'], columns='書類', values=['番号'], aggfunc=lambda d:d.values).reset_index()
21#     名前  年齢  国籍  性別   番号
22#書類                     A    B
23#0   エレナ  19  豪州  女性  004  005
24#1    ジム  25  米国  男性  002  003
25#2    新井  20  日本  女性  001  001
26#3    新井  25  日本  男性  006  007
27#4     王  19  中国  女性  004  NaN
28
29# フィルタリング処理
30df = df[df[('番号','A')].notna() & df[('番号','B')].notna() & (df[('番号','A')]!=df[('番号','B')])]
31#     名前  年齢  国籍  性別   番号
32#書類                     A    B
33#0   エレナ  19  豪州  女性  004  005
34#1    ジム  25  米国  男性  002  003
35#3    新井  25  日本  男性  006  007

投稿2020/01/07 00:04

magichan

総合スコア15898

Touiro

2020/01/07 09:44

ありがとうございます、最終目標に向けて大変参考になります。ただ、自分ではサンプルの通りに試したつもりなのですが aise KeyError(i)　KeyError: '番号' となってしまいます。 try: と except KeyError: でデータ変換処理をスキップした場合、フィルタリング処理のほうで(?) KeyError: ('番号', 'A')　が発生してしまいます。 csv = 'C:/Users/username/Desktop/PythonProject/A and B.csv' としているのがまずいのでしょうか？　日本語のエンコードが出来ていないとか…… 度々申し訳ないですが、宜しくおねがいします。

magichan

2020/01/07 10:08

自分のデータ(csvファイル)で実行してみるとエラーになるということでしょうか。あと、エラーになるのは pivot_table() の行でしょうかね？とりあえず KeyError: '番号' と出ているのであれば、元のデータフレームから '番号'列が見つからないのでしょう。考えられることは「データフレームの読み込みで失敗している」「'番号'列がIndexになっている」「カラム名の前後に余分なスペースがついている」あたりですね。とりあえずデータフレームを読み込んだ段階で #データフレームが問題なく読み込まれているか確認 print(df) #データサイズに問題ないか確認 print(df.shape) #カラム名に問題が無いか確認（特にスペースが含まれてないか） print(df.columns) などを実行して確認してみてください

Touiro

2020/01/07 11:16 編集

はい、自分のデータだとうまくいきませんでした。 csv = 'C:/Users/username/Desktop/PythonProject/A and B.csv' と指定した上でご指摘の方法を試した所 Empty DataFrame Columns: [C:/絶対/パス] Index: [] (0, 1) Index(['C:/絶対/パス, dtype='object') となっていましたので、そもそもcsvファイルを読み込めていなかったようです（多分……）。パスそのものは他のコードだと機能するので間違っていないと思います。どうにもこうにもわからないので、当てずっぽうで csv = pd.read_csv('C:/Users/fight/Desktop/Inbox/005 PythonProject/A and B.csv', encoding='shift_jis') と試してみましたが、やはり駄目なようです。 TypeError: initial_value must be str or None, not DataFrame csvを読み込むにはどのようにすれば良いのでしょうか？

magichan

2020/01/07 11:54

なんとなく理由がわかったきがするもしかして csv = 'C:/Users/username/Desktop/PythonProject/A and B.csv' df = pd.read_csv(io.StringIO(csv), dtype={'番号':str}) とかやってませんか？ Io.StringIO() は文字列をファイルのように扱うためのAPIなので、本当のファイルを読み込む場合は通常通り df = pd.read_csv('C:/Users/username/Desktop/PythonProject/A and B.csv', dtype={'番号':str}) となります

Touiro

2020/01/07 14:48

完全におっしゃるとおりです。お恥ずかしい。通りでいくら検索しても参考になりそうなものを見つけられなかったわけです。おかげさまでうまくいきました。ひとまず例示していただいたコードのそれぞれの意味を確認していきたいと思います。ありがとうございました。

行動規範の内容に同意します

python
1print(df)
2"""
3   番号   名前  年齢  国籍  性別 書類
40   1   新井  20  日本  女性  A
51   1   新井  20  日本  女性  B
62   2   ジム  25  米国  男性  A
73   3   ジム  25  米国  男性  B
84   4    王  19  中国  女性  A
95   4  エレナ  19  豪州  女性  A
106   5  エレナ  19  豪州  女性  B
117   6   新井  25  日本  男性  A
128   7   新井  25  日本  男性  B
13"""
14
15df = df[df.duplicated(subset=['名前','年齢','国籍','性別'], keep=False)]
16print(df)
17"""   
18   番号   名前  年齢  国籍  性別 書類
190   1   新井  20  日本  女性  A
201   1   新井  20  日本  女性  B
212   2   ジム  25  米国  男性  A
223   3   ジム  25  米国  男性  B
235   4  エレナ  19  豪州  女性  A
246   5  エレナ  19  豪州  女性  B
257   6   新井  25  日本  男性  A
268   7   新井  25  日本  男性  B
27"""
28df = df[~(df.duplicated(subset=['番号','名前','年齢','国籍','性別'], keep=False))]
29print(df)
30"""
31   番号   名前  年齢  国籍  性別 書類
322   2   ジム  25  米国  男性  A
333   3   ジム  25  米国  男性  B
345   4  エレナ  19  豪州  女性  A
356   5  エレナ  19  豪州  女性  B
367   6   新井  25  日本  男性  A
378   7   新井  25  日本  男性  B
38"""
39