Rでのスクレイピング：tableの取り出し

スクレイピング初心者です。
Rでスクレイピングをやりたいのですが、とりだしたい情報が取り出せなくて困っています。
厚生労働省が運営している「介護事業所・生活関連情報検索」から介護事業所の情報（テーブル）を取り出したいのですが、うまくいきません。

R
1#htmlドキュメントを取得
2page1 <- read_html("http://www.kaigokensaku.mhlw.go.jp/13/index.php?action_kouhyou_detail_2016_024_kani=true&JigyosyoCd=1370402974-00&PrefCd=13&VersionCd=024")
3#テーブル要素の取得
4tab <- page1 %>% html_table()
5tab
6
7#何も出てこない
8
9#他のやり方も試してみたがうまくいかない
10#この場合は老人ホームの名前を取得しようとしているが…
11
12theurl <- "http://www.kaigokensaku.mhlw.go.jp/13/index.php?action_kouhyou_detail_2016_024_kani=true&JigyosyoCd=1370402974-00&PrefCd=13&VersionCd=024"
13doc <- htmlParse(GET(theurl))
14results <- xpathSApply(doc, "//*[@id='tableGroup-0']/table/tbody/tr[2]/td")
15results <- readHTMLTable(results[[1]])
16results
17
18#NULLが返ってくる
19
20

どうやればうまく取り出せるでしょうか。どなたか教えていただけると助かります。よろしくお願いします。

###補足情報
R version 3.3.3を使用。
PCはWindows 8, 32bit版です。

行動規範の内容に同意します

回答1件

ベストアンサー

理由は分かりませんが、該当のページのレスポンスボディ、ちょうどヘッダの直後あたりにヌル文字 0x00 が連続して含まれているようですね。このため、 libxml2 パーサがその時点で文字列が終端していると見做してしまい、以降の HTML body が丸ごと捨てられてしまっているようです。問題の箇所は以下で確認できます。

r
1library(httr)
2response <- GET("http://www.kaigokensaku.mhlw.go.jp/13/index.php?action_kouhyou_detail_2016_024_kani=true&JigyosyoCd=1370402974-00&PrefCd=13&VersionCd=024")
3rawResponse <- content(response, "raw")
4print(rawResponse[2701:2800])

仕方ないので、面倒ですが以下の通りヌル文字を削除してからパーサに食わせてやるというのは如何でしょうか。幸いに UTF-8 の文書なので、雑に削除してしまっても問題ないと思います。

r
1library(rvest)
2tableNodes <- read_html(rawResponse[rawResponse != 0]) %>% html_nodes("table")
3tables <- html_table(tableNodes[1:9], fill=TRUE)

尚、一度 html_nodes() で <table> を取り出して部分的に html_table() にかけているのは、文書に中身を持たない <table> 要素が含まれているため、それも含めて html_table() にかけるとコケてしまうという別の問題があったためです。このあたり、癖のある文書のスクレイピングは試行錯誤の連続にはなりますが、いろいろ実験しながら進めると良いと思います。

投稿2017/05/08 09:25