そのグループの要素の変数の内一つでも共有していれば同じグループに分類したい。

Question

### 実現したいこと - [ ] そのグループの変数の内、自分の変数と同じ数字を一つでも共有していれば同じグループに分類したい。 ### 前提以下のようなデータがあるとします。 ```R data <- data.frame( V1 = c(1, 1, 2, 3, 3, 4, 4, 4, 4, 5, 5, 6, 7), V2 = c(1, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 7), V3 = c(1, 1, 1, 2, 3, 4, 5, 5, 6, 5, 6, 7, 8) ) >print(data) V1 V2 V3 1 1 1 1 2 1 2 1 3 2 2 1 4 3 3 2 5 3 3 3 6 4 4 4 7 4 4 5 8 4 5 5 9 4 5 6 10 5 5 5 11 5 5 6 12 6 6 7 13 7 7 8 ``` このデータをグループ化する新たな変数を作りたいです。具体的には、第1変数、第2変数、第3変数、どれか一つでもあるグループの行と同じだと、同じグループとしたいです。つまり、「自分以外のグループの構成員の内誰か一人でも変数のどれかを共有している」という条件です。逆に言えば、第1変数、第2変数、第3変数の全てにおいてそのグループのどの行とも共有しない場合、異なるグループとしたいです。例えば、上記のデータをこの規則に従ってグループ化（第4変数）すると、以下のようなものになります。 ```R >print(data) V1 V2 V3 Group 1 1 1 1 1 2 1 2 1 1 3 2 2 1 1 4 3 3 2 2 5 3 3 3 2 6 4 4 4 3 7 4 4 5 3 8 4 5 5 3 9 4 5 6 3 10 5 5 5 3 11 5 5 6 3 12 6 6 7 4 13 7 7 8 5 ``` これを実現するコードが無知ゆえに見当が付きません。各変数ではグループ化(tidyverseなどによるもの)は当然できるが、各変数グループの論理和的なグルーピングのコードがどうやっても思いつかないため、大変申し訳ないが知恵をお借りしたいです。 ### 調査したこと・試したこと以下のコードを実行しましたが、思った出力にはなりませんでした。 ```R data <- data.frame( V1 = c(1, 1, 2, 3, 3, 4, 4, 4, 4, 5, 5, 6, 7), V2 = c(1, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 7), V3 = c(1, 1, 1, 2, 3, 4, 5, 5, 6, 5, 6, 7, 8) ) data <- data %>% group_by(V1|V2|V3) %>% mutate(group_id = group_indices()) print(data) > print(data) # A tibble: 13 × 5 # Groups: V1 | V2 | V3 [1] V1 V2 V3 `V1 | V2 | V3` group_id 1 1 1 1 TRUE 1 2 1 2 1 TRUE 1 3 2 2 1 TRUE 1 4 3 3 2 TRUE 1 5 3 3 3 TRUE 1 6 4 4 4 TRUE 1 7 4 4 5 TRUE 1 8 4 5 5 TRUE 1 9 4 5 6 TRUE 1 10 5 5 5 TRUE 1 11 5 5 6 TRUE 1 12 6 6 7 TRUE 1 13 7 7 8 TRUE 1 ``` 単純に論理和をグルーピングに入れるだけでは理想の出力になりません。（そりゃそうですが。）しかし、これ以外に思いつきません。 ### 補足情報（FW/ツールのバージョンなど） Rstudioは3か月前に更新したもの。OSはwindows11。

Answer

[igraph パッケージ](https://cran.r-project.org/web/packages/igraph/index.html) を用い，データの各行を頂点とする無向グラフを使ってグループ分けする記述例を下記に示します。

* 隣接行列（`w`）を用意し，両頂点が「3変数のどれかを共有しているか否か」で「`1`と`0` 」を（無向グラフに必要な左下三角部分に）格納する

* 隣接行列（`w`）から無向グラフ（`g`）を作成する

* 関数 `components(g)` が出力する `membership` ベクトルを `group_id` として `data` に追加する

```R
library(igraph)

data <- data.frame(
    V1 = c(1, 1, 2, 3, 3, 4, 4, 4, 4, 5, 5, 6, 7),
    V2 = c(1, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 7),
    V3 = c(1, 1, 1, 2, 3, 4, 5, 5, 6, 5, 6, 7, 8))

N <- nrow(data)
w <- matrix(0, nrow=N, ncol=N)
for (i in 2:N) {
    for (j in 1:i-1) {
        w[i, j] <- ifelse(any(data$V1[i] == data$V1[j],
                              data$V2[i] == data$V2[j],
                              data$V3[i] == data$V3[j]),
                          1, 0)
    }
}

g <- graph_from_adjacency_matrix(w, mode="lower")
data$group_id <- components(g)$membership

print(data)
##    V1 V2 V3 group_id
## 1   1  1  1        1
## 2   1  2  1        1
## 3   2  2  1        1
## 4   3  3  2        2
## 5   3  3  3        2
## 6   4  4  4        3
## 7   4  4  5        3
## 8   4  5  5        3
## 9   4  5  6        3
## 10  5  5  5        3
## 11  5  5  6        3
## 12  6  6  7        4
## 13  7  7  8        5
```

Answer

```r suppressMessages(library(tidyverse)) data <- data.frame( V1 = c(1, 1, 2, 3, 3, 4, 4, 4, 4, 5, 5, 6, 7), V2 = c(1, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 7), V3 = c(1, 1, 1, 2, 3, 4, 5, 5, 6, 5, 6, 7, 8) ) data %>% rowwise() %>% mutate(group_id = list(which(colSums(c_across(everything()) == t(.)) > 0))) %>% mutate(group_id = reduce(.$group_id, ~{ s <- intersect(unlist(.x), .y); ifelse(length(s), list(s), .x) }, .init=list(group_id))) %>% group_by(group_id) %>% mutate(group_id = cur_group_id()) -> data data # # A tibble: 13 × 4 # # Groups: group_id [5] # V1 V2 V3 group_id # # 1 1 1 1 1 # 2 1 2 1 1 # 3 2 2 1 1 # 4 3 3 2 2 # 5 3 3 3 2 # 6 4 4 4 3 # 7 4 4 5 3 # 8 4 5 5 3 # 9 4 5 6 3 # 10 5 5 5 3 # 11 5 5 6 3 # 12 6 6 7 4 # 13 7 7 8 5 ```

実現したいこと

前提

調査したこと・試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問