前提・実現したいこと
PythonでExcelデータを読み込み重複した行をCSVへ各列に分けて出力したい。
Excelデータ(7列のデータが5万行程あります。)を読み込み、
特定の列のデータが重複している場合、その行を抽出しCSVやExcelに書き出したいです。
Excelデータは7列あり2行目のデータを抽出します。
duplicatedを使用し抽出したものを無理矢理CSVへ出力しました。
※20201121 19:10修正
修正前:duplicatedを使用し抽出すると「...」と省略されたため、表示数を適当に増やし可視化したものを無理矢理CSVへ出力しました。
発生している問題
各行が1つの列に入ってしまい、再度処理が必要でした。
今回は重複は30個程度だったので手作業で何とかなりましたが、重複が増えた場合には手作業では厳しいです。
そこで、抽出した行を各列に分けてCSVやExcelファイルへ再利用しやすい形で保存する方法を教えてください。
試したこと
下記を使用し表示数を増やし可視化したものを無理矢理CSVへ出力した。
pd.set_option('display.max_rows', 500000)
pd.set_option('display.max_columns', 500000)
該当のソースコード
print(pd.get_option("display.max_rows")) print(pd.get_option("display.max_columns")) #新しく設定する最大表示数 pd.set_option('display.max_rows', 500000) pd.set_option('display.max_columns', 500000) ######################### # Read EXCEL df = pd.read_excel('ファイル名') ################## # Check Dup df=df[df.duplicated(subset='対象列名')] print(df) ########## #csvへ出力 with open('file.csv', 'w') as f: print(df, file=f)
回答1件
あなたの回答
tips
プレビュー