【やりたい事】
csvファイル中の5万行×4列のデータの中で重複する行の個数をカウントしようとしています。
【背景】
Excelのピボットを組もうとすると、動作を停止するので、Pyhtonのpandasを用いて処理しようとしています。
【質問内容】
①重複行をカウントする方法が分かりません。
②また、それを元のcsvファイルに5列目に出力する方法が分かりません。
以上もし分かる方がいらっしゃったらお願いします。
【追記事項】
重複行のカウント方法と出力結果についての具体的な明記が無いと指摘を受けたので、追記します。
重複行のカウントという表現は適切でなく、csvファイル内で重複無しの行ならば1を出力します。
例)
1行目は重複なし->出力結果1
2、3、4は重複->出力結果3
5、6は重複->出力結果は2です。
(1、2、5は異なる行です)
重複する行の個数をカウントと書かれておりますが、どのようにカウントするべきなのかの詳細を教えていただけないでしょうか。 例えば 1行目は重複無し、2行目・3行目・4行目が同一、5行目・6行目が同一の場合、2行目から6行目が重複行なので結果は5でよいのでしょうか? また5行目(5列目の間違い?)に出力する結果とは何を書くのでしょうか?
回答4件
あなたの回答
tips
プレビュー