回答編集履歴

2023/02/09 18:26

投稿

スコア21285

answer CHANGED Viewed

@@ -1,4 +1,4 @@
-※ 重複のない組み合わせ(`freq == 0`)を merge(right join) で補完。
+※ 重複のない組み合わせ(`freq == 0`)を merge で補完。
 ```python
 import pandas as pd
 from itertools import combinations

2023/02/09 18:24

投稿

スコア21285

answer CHANGED Viewed

@@ -1,4 +1,4 @@
-※ 重複のない組み合わせ(`freq == 0`)を merge(left join) で補完。
+※ 重複のない組み合わせ(`freq == 0`)を merge(right join) で補完。
 ```python
 import pandas as pd
 from itertools import combinations

2023/02/09 18:22

投稿

スコア21285

answer CHANGED Viewed

@@ -1,6 +1,37 @@
+※ 重複のない組み合わせ(`freq == 0`)を merge(left join) で補完。
-※ 削除
+```python
+import pandas as pd
+from itertools import combinations
+df = pd.DataFrame({
+  'group': [*['A']*4, *['B']*3, *['C']*5, *['D']*4],
+  'person': [1, 2, 3, 4, 2, 5, 6, 4, 7, 8, 9, 10, 2, 3, 7, 12],
+})
+dfx = df.groupby('person')['group']\
+        .apply(lambda g: [*combinations(g, 2)])\
+        .explode().value_counts().sort_index().to_frame('freq')
+comb = pd.DataFrame(index=[*combinations(df['group'].unique(), 2)])
+dfx = pd.merge(comb, dfx, left_index=True, right_index=True, how='left')\
+        .fillna(0, downcast='infer')
+dfx = pd.DataFrame(dfx['freq'], index=pd.MultiIndex.from_tuples(dfx.index))\
+        .rename_axis(['group1', 'group2']).reset_index()
+print(dfx)
+```
+| group1   | group2   |   freq |
+|:--------:|:--------:|-------:|
+| A        | B        |      1 |
+| A        | C        |      1 |
+| A        | D        |      2 |
+| B        | C        |      0 |
+| B        | D        |      1 |
+| C        | D        |      1 |

2023/02/09 17:42

投稿

スコア21285

answer CHANGED Viewed

@@ -1,28 +1,6 @@
-※ 以前の質問の際にも述べましたが、組み合わせ数は `3000 * 2999 / 2 = 4,498,500` 通りになります。処理時間がどの程度になるのか、こちらでは確認していません。
-```python
+※ 削除
-import pandas as pd
-from itertools import combinations
-df = pd.DataFrame({
-  'group': [*['A']*4, *['B']*3, *['C']*5, *['D']*4],
-  'person': [1, 2, 3, 4, 2, 5, 6, 4, 7, 8, 9, 10, 2, 3, 7, 12],
-})
-comb = [*combinations(df['group'].unique(), 2)]
-dfx = df.set_index('group')
-dfx = pd.DataFrame(
-          [dfx.loc[c,:].duplicated().sum() for c in comb],
-          index=pd.MultiIndex.from_tuples(comb))\
-        .reset_index().set_axis(['group1', 'group2', 'freq'], axis=1)
-print(dfx)
-```
-| group1   | group2   |   freq |
-|:--------:|:--------:|-------:|
-| A        | B        |      1 |
-| A        | C        |      1 |
-| A        | D        |      2 |
-| B        | C        |      0 |
-| B        | D        |      1 |
-| C        | D        |      1 |