いつもお世話になっております。
標題の通り、pyspark datadrameにて特定の列の重複する要素数をカウントする方法をご教授いただきたく質問を起票させて頂きました。
以下のようなidと配列を要素として各業に持つdataframeに対して、id+arrayの組み合わせで要素数をカウントする方法が知りたいです。
python
1|id|array| 2|1|[1,2]| 3|1|[1,2,3]| 4|1|[1,2]| 5|2|[1,2]| 6|2|[1,2,4]| 7|2|[1,2,4]| 8|3|[1,3]| 9|3|[1,3]| 10|3|[1,3]|
これに対して以下の様な結果を得たいと考えております。
python
1|id|array|count| 2|1|[1,2]|2| 3|1|[1,2,3]|1| 4|2|[1,2]|1| 5|2|[1,2,4]|2| 6|3|[1,3]|3|
id+arrayの組み合わせの数を新たにcount列として得たいのですが、distinct()+count()ですと単純にユニークな要素数を取得してしまい、意図した結果が得られず困っております。
どうぞご教授の程よろしくお願いいたします。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。