質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

R

R言語は、「S言語」をオープンソースとして実装なおした、統計解析向けのプログラミング言語です。 計算がとても速くグラフィックも充実しているため、数値計算に向いています。 文法的には、統計解析部分はS言語を参考にしており、データ処理部分はSchemeの影響を受けています。 世界中の専門家が開発に関わり、日々新しい手法やアルゴリズムが追加されています。

Q&A

0回答

1135閲覧

Rを使用したhtmlソース内テーブルデータ取得時のエラー

anor

総合スコア4

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

R

R言語は、「S言語」をオープンソースとして実装なおした、統計解析向けのプログラミング言語です。 計算がとても速くグラフィックも充実しているため、数値計算に向いています。 文法的には、統計解析部分はS言語を参考にしており、データ処理部分はSchemeの影響を受けています。 世界中の専門家が開発に関わり、日々新しい手法やアルゴリズムが追加されています。

0グッド

1クリップ

投稿2019/10/22 05:12

前提・実現したいこと

Rで以下のページのテーブルデータの取得を試みています。
【ページ:https://www.jackall.co.jp/bass/products/lure/minnow-shad/rerange/】

read_htmlでソースをUTF-8指定で読み込むことは可能なのですが、(エンコーディングの問題で?)html_tableを使用してテーブルデータを上手く格納できない状況です。ソース読み込み時のエンコーディングの指定は間違っていないようですし、他のページで似たような文字列を含むテーブルの取得には成功しているのですが、上記ページはうまく取得できません。
原因究明のためお力添え頂ければ幸いです。

発生している問題・エラーメッセージ

Error in utils::type.convert(out[, i], as.is = TRUE, dec = dec) :
invalid multibyte string at '<ef><bc><ef>スョ<ef>スー<ef>セ<84><ef>スシ<ef>スャ<ef>セ晢スク<ef>セ鯉スッ<ef>スクRB-M#6'

該当のソースコード

recall_html_tmp <- read_html("https://www.jackall.co.jp/bass/products/lure/minnow-shad/rerange/",

  • encoding = "UTF-8"
  • ) %>% html_table

試したこと

read_htmlにendocingとは別にfileEncodingを付け足してみたり、取得したソースのエンコーディングをrepair_encodingにかけてエンコーディングを確認など。( UTF-8 (100% confident)でreadする際のエンコードの指定も間違っていないことを確認済み)

補足情報(FW/ツールのバージョンなど)

Windows 10 Pro (64bit)
R version 3.4.0 (2017-04-21)
R Studio Version 1.0.143
*初めての質問のため、何か情報が足らない等ございましたらご指摘下さいませ。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問