質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

R

R言語は、「S言語」をオープンソースとして実装なおした、統計解析向けのプログラミング言語です。 計算がとても速くグラフィックも充実しているため、数値計算に向いています。 文法的には、統計解析部分はS言語を参考にしており、データ処理部分はSchemeの影響を受けています。 世界中の専門家が開発に関わり、日々新しい手法やアルゴリズムが追加されています。

Q&A

解決済

1回答

665閲覧

rvest テーブルの取得不十分について

studentJP

総合スコア2

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

R

R言語は、「S言語」をオープンソースとして実装なおした、統計解析向けのプログラミング言語です。 計算がとても速くグラフィックも充実しているため、数値計算に向いています。 文法的には、統計解析部分はS言語を参考にしており、データ処理部分はSchemeの影響を受けています。 世界中の専門家が開発に関わり、日々新しい手法やアルゴリズムが追加されています。

0グッド

0クリップ

投稿2021/01/19 17:06

#Rでのスクレイピングについての質問です。

JRAのサイトの中の、
重賞レースの一覧ページの、
table を rvest を利用してスクレイピングしています。

【 ページURL= https://www.jra.go.jp/datafile/seiseki/replay/2021/jyusyo.html  】

ここからが問題なのですが、
2002年~2005年のテーブルがなぜか5月までしか取得できません。
2006年以降は問題なくtableすべてを取得できています。

chromeの開発機能を利用し、ページ構成を確認しましたが、
原因であろう特徴は見つけることが出来ませんでした。
######なぜ5月までしか取得できないのか、の理由をご教授頂きたいと存じます。

以下スクレイピングコードになります。

R

1URL <- "https://www.jra.go.jp/datafile/seiseki/replay/2002/jyusyo.html" 2URL1 <- read_html(URL,"Shift_JIS") 3node <- html_nodes(URL1,"table") 4DB <- data.frame(html_table(node[20]))

ご回答いただけたら幸いでございます。
どうぞ、よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

ページの途中に不正な文字が紛れ込んでいるようですね。

イメージ説明

ダウンロードして、手作業で怪しい部分を除去してから本処理にかければ良いと思います。

投稿2021/01/19 17:39

KojiDoi

総合スコア13671

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

studentJP

2021/01/20 12:17

ご回答ありがとうございます。 スクレイピングにあたり、URL部分を pasete(X,i,Y)とし、for文で処理を行っています。 処理の内容としましては、空のdata.frame()に取得したデータを順次、rbind()で追加しています。 この処理の中で、この特定の文字列のみを除去することは出来るのでしょか? ご返信いただければ幸いです。
KojiDoi

2021/01/20 12:49

<a href="52.html">...</a> が問題を起こしているようなので、read_htmlする前にこれを文字列置換で消してしまう処理を加えればいいんじゃないでしょうか。
studentJP

2021/01/23 13:17

ご返信ありがとうございます。 文字列変換のやり方など、再度勉強してみます。 ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問