【R】組み合わせデータ作成

前提

RでIDの組み合わせを作りたいと考えています。
データは、企業コード（code）、氏名ID（name_no）、備考（name_birth）の3つから成ります。【※添付画像A～C列参照】
また、氏名IDは複数の企業コードを持ち得ます。

実現したいこと

完成形は【※添付画像I～J列参照】です。完成形になるならば、ロジックで問いません。

私がやろうとしている処理は下記です。コードは下記参照。
企業コードごとに氏名IDの組み合わせ（同一の組み合せは省く）を作り【※添付画像E～G列参照】、F～G列の組み合わせをユニークにしたいと考えています。

発生している問題・エラーメッセージ

下記コードでのアウトプットは添付のようになります。
オレンジ色の組み合わせ、水色の組み合わせが混じってしまいます。
これらのような組み合わせを省きたいです。

該当のソースコード

R
1install.packages("data.table")
2library(data.table)
3
4dt <- fread("test.txt", sep="\t", encoding="UTF-8", header=T)
5
6------------
7code_list <- unique(dt$code)
8cn <- length(code_list)
9
10xx.all <- NULL
11
12c <- 1
13pb <- txtProgressBar(min = 1, max = cn, style = 3)
14while (c <= length(code_list))
15{
16  ds <- dt[code==code_list[c], , ]
17  name_no_list <- unique(ds$name_no)
18  n <- length(name_no_list)
19  for (i in 1:n)
20  {
21    for (j in 1:n)
22    {              
23      setTxtProgressBar(pb, c)
24      a <- ds[name_no==name_no_list[i], , ]
25      b <- ds[name_no==name_no_list[j], , ]
26      x <- merge(a, b, by=c("code") , all = F)
27      if(nrow(x)==0) 
28        next(i)
29      xx <- x[, .N, by = .(code, name_no.x, name_no.y)]
30      xx <- xx[name_no.x != name_no.y,]
31      if(nrow(xx)==0)
32        next(i)
33      else
34      {
35        xx.all <- rbind(xx.all, xx)
36      }
37      Sys.sleep(0.005)
38      #print(xx)
39    }
40  }
41  c <- c + 1
42}
43write.csv(xx.all, "merge_test.csv")

よろしくお願いします。

行動規範の内容に同意します

回答1件

ベストアンサー

解決しました。

組み合わせ関数 combn(n, x) を用いる。n C x のデータを作成できる。ただし、matrix型。
whileループで作成した組み合わせデータのうち、同じ組み合わせを data %>% dplyr::distinct(a, b) で重複削除。

R
1install.packages("dplyr")
2library(dplyr)
3
4code_list <- unique(dt$code)
5cn <- length(code_list)
6
7comb.all <- NULL
8
9c <- 1
10pb <- txtProgressBar(min = 1, max = cn, style = 3)
11while (c <= length(code_list))
12{
13  ds <- dt[code==code_list[c], , ]
14  name_no_list <- unique(ds$name_no)
15  combmat <-combn(name_no_list,2)
16  combdat <-as.data.frame(t(data.frame(combmat)))
17  comb.all <- rbind(comb.all, combdat)
18  c <- c + 1
19}
20
21colnames(comb.all) <- c("name_no.x", "name_no.y")
22
23comb <-comb.all %>% dplyr::distinct(name_no.x, name_no.y)
24
25write.csv(comb, "test.csv")

投稿2023/01/15 10:20

編集2023/01/15 10:28

退会済みユーザー

総合スコア0

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

【R】組み合わせデータ作成

前提

実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

関連した質問