前提・実現したいこと
Rstudioにて、データハンドリングを行っています。
その過程で生成したファイルをもう一度読み込もうとすると、やや不可解なエラーが出ました。
発生している問題・エラーメッセージ
あるファイルを読み込もうとすると、以下のエラーメッセージが出ます。
読み込んだコードは以下の通りです。
R
1app <- read_tsv("upd_pmab_gr_appl_case_biblog_3columns.tsv", 2 locale = locale(encoding="UTF-16"), 3 show_col_types = FALSE, 4 )
読み込むと、以下のメッセージが出ました。
Error: The size of the connection buffer (131072) was not large enough to fit a complete line: * Increase it by setting `Sys.setenv("VROOM_CONNECTION_SIZE")`
詳しくないのですが自分なりに調べると、
Sys.setenv("VROOM_CONNECTION_SIZE")
こちらで十分な大きさのCONNECTION SIZE?を指定すればいいとみたため、
R
1Sys.setenv("VROOM_CONNECTION_SIZE" = 500000000) 2
こちらのコードを、いくつか数値を読み込ませた後にもう一度ファイルを読み込もうとしても、数値が変わっただけで読み込めませんでした。また、数値を大きくしすぎるとメモリ不足になりました。
元ファイルが大きい(約1.5GB)のが原因かと思い、いくつか分割したファイル(各ファイル約200MB)を読み込もうとしたものの、結果は変わりませんでした。
また、C:の容量が足りてないかと思ったのですが、60GB近く残っているため違うと思います。
そのため、ファイル自体に問題があると思ったのですが、どこに原因があるのかわかりません。どなたか原因が分かる方がいたら教えていただきたいです。
その他試したこと
こちらのコードも試しましたが、結果は変わりませんでした。
R
1app <- read.csv("upd_pmab_gr_appl_case_biblog_3columns.tsv", 2 sep = "\t", 3 fileEncoding="utf-16", 4 header = TRUE, 5 )
いくつか分割したファイル(各ファイル約200MB)
こちらを別デバイスで読み込んでも、同じ結果が出ました。そのため、ハード面でのエラーではないのかな...と思います。そうなると、ファイルに問題があるのか...
元データをpowershellで冒頭を見てみたところ以下の通りでした。n行3列のデータです。特に変な所はないと思うのですが...
powershell
1PS C:\Users\~> Get-Content "upd_pmab_gr_appl_case_biblog_3columns.tsv" | Select-Object -First 10 2app_num abii_inventor_name abii_inventor_addr 31966049771 鈴元 稔 東京都杉並区 41966049771 卯賀 順是 浦和市 51966076588 東沢 純一 仙台市 61966076588 多木 二郎 仙台市 71968006778 ロジヤー・ジョージ・ノーレン イギリス国 81968006778 モーリソン・ジエイムズ・レフト イギリス国 91968029671 バーナン・ラッセン・トンプソン アメリカ合衆国 101968047890 ゲイン・ステイーブンソン アメリカ合衆国 111969016552 ラルフ、エジソン、ホーム、ジユニア アメリカ合衆国
あなたの回答
tips
プレビュー