質問編集履歴

集計したいことを追記

2023/02/09 14:53

投稿

スコア0

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1,13 +1,14 @@
 ### 実現したいこと
-- 以下の左図のように、グループに属する人物のリストがあります。
+- 以下の左図のように、グループ（group）に属する人物（person）のリストがあります。
-- リスト各グループ内の人物がマッチする人数で、右図のような集計をしたいと思っています。
+- 各グループ内の人物が重複する人数をカウントし、右図のようにまとめたいと思っています。
+　　- AとBは「2」がどちらにも含まれているので、重複している人物が1人 → freq = 1
+　　- AとDは「2」「3」がどちらにも含まれているので、重複している人物が2人 → freq = 2
 - グループは約3,000、人物はのべ5万人あるデータを処理します。
 ![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2023-02-09/066beb34-c9e6-4c25-a0ec-46a0043f090f.png)
 ### 試してみたこと
 - グループの組み合わせを作成。
-- 組み合わせを参照しながら、重複を数える方法がないかと悩んでします。
+- グループの組み合わせを参照しながら、該当するグループの重複を数える方法がないかと悩んでします。
 ```python
 import pandas as pd

試したことを追加

2023/02/09 14:42

投稿

スコア0

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -4,6 +4,29 @@
 - グループは約3,000、人物はのべ5万人あるデータを処理します。
 ![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2023-02-09/066beb34-c9e6-4c25-a0ec-46a0043f090f.png)
+### 試してみたこと
+- グループの組み合わせを作成。
-どのようなスクリプトもしくはコマンドを使えば良いか教えてください。
+- 組み合わせを参照しながら、重複を数える方法がないかと悩んでします。
+```python
+import pandas as pd
+import itertools
+data = pd.read_table("C:/Users/lisaco/data_0131.txt", encoding="utf-8")
+dt = data[['group', 'person']]
+u = dt['group'].unique()
+comb = itertools.combinations(u,2)
+name = ["group1", "group2"]
+dtx = pd.DataFrame(comb, columns=name)
+~~def func(x):
+    df.groupby('comb')['b'].agg(lambda x: list(x)):~~
+~~df['freq'] = df.apply(func, axis=1)~~
+```
 よろしくお願いします。