質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
RStudio

RStudioは、Rのプログラミングを効率化する統合開発環境です。統計計算とグラフィックスができるプログラミング言語であるRのIDEでOSSで公開されています。ソースコードやコンソールなどが一つの画面に見やすく配置されている点が特徴。コマンド名以外に、関数名やパッケージ名も補完できます。

Q&A

解決済

1回答

365閲覧

【R】組み合わせデータ作成

退会済みユーザー

退会済みユーザー

総合スコア0

RStudio

RStudioは、Rのプログラミングを効率化する統合開発環境です。統計計算とグラフィックスができるプログラミング言語であるRのIDEでOSSで公開されています。ソースコードやコンソールなどが一つの画面に見やすく配置されている点が特徴。コマンド名以外に、関数名やパッケージ名も補完できます。

0グッド

0クリップ

投稿2023/01/15 06:28

前提

RでIDの組み合わせを作りたいと考えています。
データは、企業コード(code)、氏名ID(name_no)、備考(name_birth)の3つから成ります。【※添付画像A~C列参照】
また、氏名IDは複数の企業コードを持ち得ます。
イメージ説明

実現したいこと

完成形は【※添付画像I~J列参照】です。完成形になるならば、ロジックで問いません。

私がやろうとしている処理は下記です。コードは下記参照。
企業コードごとに氏名IDの組み合わせ(同一の組み合せは省く)を作り【※添付画像E~G列参照】、F~G列の組み合わせをユニークにしたいと考えています。

発生している問題・エラーメッセージ

下記コードでのアウトプットは添付のようになります。
オレンジ色の組み合わせ、水色の組み合わせが混じってしまいます。
これらのような組み合わせを省きたいです。
イメージ説明

該当のソースコード

R

1install.packages("data.table") 2library(data.table) 3 4dt <- fread("test.txt", sep="\t", encoding="UTF-8", header=T) 5 6------------ 7code_list <- unique(dt$code) 8cn <- length(code_list) 9 10xx.all <- NULL 11 12c <- 1 13pb <- txtProgressBar(min = 1, max = cn, style = 3) 14while (c <= length(code_list)) 15{ 16 ds <- dt[code==code_list[c], , ] 17 name_no_list <- unique(ds$name_no) 18 n <- length(name_no_list) 19 for (i in 1:n) 20 { 21 for (j in 1:n) 22 { 23 setTxtProgressBar(pb, c) 24 a <- ds[name_no==name_no_list[i], , ] 25 b <- ds[name_no==name_no_list[j], , ] 26 x <- merge(a, b, by=c("code") , all = F) 27 if(nrow(x)==0) 28 next(i) 29 xx <- x[, .N, by = .(code, name_no.x, name_no.y)] 30 xx <- xx[name_no.x != name_no.y,] 31 if(nrow(xx)==0) 32 next(i) 33 else 34 { 35 xx.all <- rbind(xx.all, xx) 36 } 37 Sys.sleep(0.005) 38 #print(xx) 39 } 40 } 41 c <- c + 1 42} 43write.csv(xx.all, "merge_test.csv")

よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

解決しました。

  • 組み合わせ関数 combn(n, x) を用いる。n C x のデータを作成できる。ただし、matrix型。
  • whileループで作成した組み合わせデータのうち、同じ組み合わせを data %>% dplyr::distinct(a, b) で重複削除。

R

1install.packages("dplyr") 2library(dplyr) 3 4code_list <- unique(dt$code) 5cn <- length(code_list) 6 7comb.all <- NULL 8 9c <- 1 10pb <- txtProgressBar(min = 1, max = cn, style = 3) 11while (c <= length(code_list)) 12{ 13 ds <- dt[code==code_list[c], , ] 14 name_no_list <- unique(ds$name_no) 15 combmat <-combn(name_no_list,2) 16 combdat <-as.data.frame(t(data.frame(combmat))) 17 comb.all <- rbind(comb.all, combdat) 18 c <- c + 1 19} 20 21colnames(comb.all) <- c("name_no.x", "name_no.y") 22 23comb <-comb.all %>% dplyr::distinct(name_no.x, name_no.y) 24 25write.csv(comb, "test.csv")

投稿2023/01/15 10:20

編集2023/01/15 10:28
退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問