Rにて、2重for構文でロングデータを作るのを高速化したい。

Question

### 前提以下のような約800万行4列の元データ（hyozyun）があります。内訳は以下の通りです。 app_num: 番号 abii_name:　氏名 abii_addr:　住所 acai_app_dt:　日次 ```R head(hyozyun) app_num abii_name abii_addr acai_app_dt 2012000001 中山　明埼玉県所沢市 20100101 2012000002 浦下　不比等神奈川県横浜市 20100101 2012000003 高元　和人東京都中野区 20100101 2012000004 岩澤　あや高知県高知市 20100101 2012000009 手越　広一郎東京都調布市 20100103 2012000009 手越　広明東京都調布市 20100103 2012000010 市川　孝明愛知県北名古屋市 20100104 2012000010 近藤　裕一愛知県北名古屋市 20100104 2012000011 ウァング，ジョナサン　エイアメリカ合衆国 20100104 ``` ### 実現したいこと以下のような、4列のロングデータ(名前：paneldata)を作成したいです。 pref_name: 都道府県、47種類 year:年、期間は2010/01-2021/12であるため、種類は12種類 month:月、期間は2010/01-2021/12であるため、種類は12種類 value: 元データ（hyozyun）について、以下の条件が該当する行数。・abii_addr（住所）に、この行のpref_name（都道府県）が含まれている・acai_app_dt（日次）に、この行のyear（年）及びmonth（月）が含まれているイメージは以下のような感じです。 paneldata |pref_name|year|month|value| |:--|:--:|--:|--:| |北海道|2010|1|25| |北海道|2010|2|37| |北海道|2010|3|45| |...|||| |静岡県|2017|9|76| |静岡県|2017|10|34| |静岡県|2017|11|54| .... この場合ですと、行数は47都道府県×12年×12か月=6768行になります。 ### 発生している問題、該当のソースコードエラーは発生しておらず、動いてはいるのですが、元データ(hyozyun)が約800万行と膨大なのと、自分の知識不足により早く動くコードをかけず、何時間たっても処理が終わらない状態にあります。遅延化している原因と改善案をご存じでしたら教えていただければ幸いです。コードの流れは 1、データ読み込み 2、ロングデータ作成のための引数用のリストを作成 3、都道府県用リストを作成 4、表作成のための関数を作成 5、パネルデータ作成となっています。該当コードは以下の通りです。コードが冗長なので、面倒な方はコード66行目の、#5 パネルデータ作成よりご覧ください。なお、時間がかかっているのは、最後のパネルデータ作成の2重for構文です。それまでのコードは上手く迅速に処理できました。 ```R #1　データ読み込み hyozyun <- read_tsv("hyozyun.tsv", locale = locale(encoding="UTF-8"), show_col_types = FALSE ) #2　抽出するデータの時期（年・月）のリストを作成（2010年1月－2021年12月） # 推計に使うデータの、始めと終わりの年月を指定 SY = 2010 #開始年 SM = 1 　#開始月 EY = 2021 #終了年 EM = 12 　 #終了月 T =((EY-SY+1)*12)-((SM-1)+(12-EM)) #使用するデータの総月数 datelist_s = NULL #集計の引数用の、月始の年月日リスト準備 datelist_e = NULL #集計の引数用の、月末の年月日リスト準備 yearlist = NULL 　#パネルデータ用の、年リスト準備 monthlist = NULL #パネルデータ用の、月リスト準備 #集計用の月始月末の年月日リスト、パネルデータ用の年リスト、月リストを作成。 for (i in 1:T) { IY = SY + floor( (i - 1) / length(TM)) IM = TM[(i-1) %% length(TM) +1] IDATE_s = as.character(IY*10000 + IM*100 +1 ) IDATE_e = as.character(IY*10000 + IM*100 +31 ) datelist_s =c(datelist_s, IDATE_s) datelist_e =c(datelist_e, IDATE_e) yearlist =c(yearlist, IY) monthlist =c(monthlist, IM) } datelist_s >"20100101","20100201","20100301",...,"20211201" datelist_e >"20100131","20100231","20100331",...,"20211231" yearlist >2010,2010,2010,2010,2010,2010,2010,2010,2010,2010,2010,2010,2011,2011,...,2021,2021 monthlist >1,2,3,4,5,6,....,10,11,12 length(datelist_s) >144 length(datelist_s) >144 length(yearlist) >144 length(monthlist) >144 #3 都道府県リスト作成 pref_list <- c("北海道", "青森県","岩手県","宮城県","秋田県","山形県","福島県","茨城県","栃木県","群馬県","埼玉県","千葉県","東京都","神奈川県","新潟県","富山県","石川県","福井県","山梨県","長野県","岐阜県","静岡県","愛知県","三重県","滋賀県","京都府","大阪府","兵庫県","奈良県","和歌山県","鳥取県","島根県","岡山県","広島県","山口県","徳島県","香川県","愛媛県","高知県","福岡県","佐賀県","長崎県","熊本県","大分県","宮崎県","鹿児島県","沖縄県") pref_list2 <- paste0("^",pref_list)　#都道府県名リスト、演算子付きリストを作成。 P <- length(pref_list)　#都道府県数 #4　表を作るための関数を制作。 createEmptyDf = function( nrow, ncol, colnames = c() ){ if( missing( ncol ) && length( colnames ) > 0 ){ ncol = length( colnames ) } data.frame( matrix( vector(), nrow, ncol, dimnames = list( c(), colnames ) ) ) } #5 パネルデータ作成 #パネルデータ用の元の表を作成 paneldata = createEmptyDf(P*T ,colnames = c("pref_name", "year", "month","patent")) #パネルデータを作成。 for (pref in 1:P) {#上から都道府県ごとにデータを抽出 for (time in 1:T) {#各都道府県における各年月のデータを抽出 paneldata[(pref-1)*T+time, 1] = pref_list[pref] #1列目：都道府県 paneldata[(pref-1)*T+time, 2] = yearlist[time]　 #2列目：年 paneldata[(pref-1)*T+time, 3] = monthlist[time]　#3列目：月 paneldata[(pref-1)*T+time, 4] = 　　　　　　　　#4列目：合計数 .data = hyozyun %>% #元データを選択 filter(acai_app_dt >= datelist_s[time],acai_app_dt <= datelist_e[time]) %>% #同行の年月範囲のデータを抽出 filter(str_detect(abii_addr, pref_list2[pref])) %>% #同行の県に住所を置くデータを抽出 count() #抽出したの行数を合計 } } ``` 上記のコード（というより最後の2重for構文）で膨大な時間がかかっているため、なるべく迅速なコードに変更したいです。ご存じの方がもしいらっしゃいましたら教えていただければ幸いです。 ### 試したこと素人ながら調べたところ、Rとforの相性が悪い、何度もfor構文の中で同じ呼び出しをしているなどを行っていると遅くなりやすいとありましたが、こちらの上手い変更方法が思いつきません。またhyozyunデータを数万行削減したりしましたが、あまり効果はありませんでしたので、この構文を迅速化しなければならないようです。

Accepted Answer

こういうときはまず県・年・月の項目をさくっと追加してしまいます。
次に集計ですが、Rにおいてはforループはできるだけ避けるのがいいです。場合にもよりますが、関数で処理したほうが早くなることが多いとされています。
こう云う目的だとtidyverse(dplyr)というドンピシャリな機能を提供してくれるパッケージがあります。

```
library(tidyverse)

df1 <- read.table(encoding = "utf-8", text="
app_num	abii_name	abii_addr	acai_app_dt
2012000001	中山　明	埼玉県所沢市	20100101
2012000002	浦下　不比等	神奈川県横浜市	20100101
2012000003	高元　和人	東京都中野区	20100101
2012000004	岩澤　あや	高知県高知市	20100101
2012000009	手越　広一郎	東京都調布市	20100103
2012000009	手越　広明	東京都調布市	20100103
2012000010	市川　孝明	愛知県北名古屋市	20100104
2012000010	近藤　裕一	愛知県北名古屋市	20100104
2012000011	ウァング，ジョナサン　エイ	アメリカ合衆国	20100104
", sep="	", stringsAsFactors=F, header=T)

df1 %>% mutate(pref =  regmatches(abii_addr, regexpr("(.*県|北海道|東京都|大阪府|京都府|)", abii_addr))) %>%
        mutate(year =  substr(acai_app_dt, 1,4)) %>%
        mutate(month = substr(acai_app_dt, 5,6)) -> df2
df2 %>% group_by(pref,year,month) %>%
        summarize(value = n()) -> df3
print(df3)
```

pref_name	year	month	value
北海道	2010	1	25
北海道	2010	2	37
北海道	2010	3	45
...
静岡県	2017	9	76
静岡県	2017	10	34
静岡県	2017	11	54
....

前提

実現したいこと

発生している問題、該当のソースコード

試したこと

関連した質問