Pyhton pandas で重複行のカウント

Question

**【やりたい事】**
csvファイル中の5万行×4列のデータの中で重複する行の個数をカウントしようとしています。

**【背景】**
Excelのピボットを組もうとすると、動作を停止するので、Pyhtonのpandasを用いて処理しようとしています。

**【質問内容】**
①重複行をカウントする方法が分かりません。
②また、それを元のcsvファイルに5列目に出力する方法が分かりません。

以上もし分かる方がいらっしゃったらお願いします。

**【追記事項】**
重複行のカウント方法と出力結果についての具体的な明記が無いと指摘を受けたので、追記します。

重複行のカウントという表現は適切でなく、csvファイル内で重複無しの行ならば1を出力します。

例)
1行目は重複なし->出力結果1
2、3、4は重複->出力結果3
5、6は重複->出力結果は2です。
(1、2、5は異なる行です)

Accepted Answer

一応修正依頼をした手前、回答を書いておきます。
仕様からみると ``groupby.transform('count')`` 使用するのが簡単かと思います。

```Python
import pandas as pd

df = pd.DataFrame([[1,2,3,4],[2,3,4,5],[2,3,4,5],[3,4,5,6],[3,4,5,6],[3,4,5,6]])

df['dup'] = df.groupby([0,1,2,3])[0].transform('count')
print(df)
#    0  1  2  3  dup
# 0  1  2  3  4    1
# 1  2  3  4  5    2
# 2  2  3  4  5    2
# 3  3  4  5  6    3
# 4  3  4  5  6    3
# 5  3  4  5  6    3
```

もし、重複した行を表示しないのであれば ``groupby.size()`` でよいでしょう

```Python
ret_df = df.groupby([0,1,2,3]).size()
print(ret_df)
# 0  1  2  3
# 1  2  3  4    1
# 2  3  4  5    2
# 3  4  5  6    3
```

Answer

numpy.unique()を使うと、重複を除いた一覧と出現件数を取得できるので、これを活用するのはどうでしょうか？処理イメージは以下です。
1）重複を評価するデータを抽出する
2）numpy.uniqueを活用して重複を除いた一覧と出現件数を取得する（オプションのreturn_count=True必須）
3）重複を除いた一覧とオリジナルのデータを比較して、該当する出現件数をセットする

 なお、3）は2）の結果をdataframeに変換してpandas.mergeを使うといいかと思います

Answer

40000行ｘ4列のテストデータ(testpd）を作り、b列の出現頻度を計算して対応する数値をe列に追加するスクリプトを書いてみました。

```python
import pandas as pd
import random as rd

rnum = 40000
testpd = pd.DataFrame({
  "a": range(0, size),
  "b":[int(rd.random()*10) for _ in range(0,rnum)],
  "c":[int(rd.random()*10) for _ in range(0,rnum)],
  "d":[int(rd.random()*10) for _ in range(0,rnum)]
})

count = testpd.groupby("b").apply(len)
testpd["e"] = testpd["b"].apply(lambda x: count[x])

testpd.to_csv("output.csv")
```

Answer

Pythonなど不要。そう、シェル芸ならね！
```bash
$ cat src.csv|sort|uniq -c|awk '$0=$2","$1' > dst.csv
```

関連した質問