質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

XPath(XML Path)

XML Path Language (XPath; XMLパス言語)は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文の事をいいます。XPathはXMLとは別の構文を使用します。XMLドキュメントの抽象、論理ストラクチャ上で動作します。

Ruby on Rails

Ruby on Railsは、オープンソースのWebアプリケーションフレームワークです。「同じことを繰り返さない」というRailsの基本理念のもと、他のフレームワークより少ないコードで簡単に開発できるよう設計されています。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

CSS

CSSはXMLやHTMLで表現した色・レイアウト・フォントなどの要素を指示する仕様の1つです。

Q&A

2回答

2485閲覧

nokogiriを用いたスクレイピングで空白が返ってくる

退会済みユーザー

退会済みユーザー

総合スコア0

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

XPath(XML Path)

XML Path Language (XPath; XMLパス言語)は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文の事をいいます。XPathはXMLとは別の構文を使用します。XMLドキュメントの抽象、論理ストラクチャ上で動作します。

Ruby on Rails

Ruby on Railsは、オープンソースのWebアプリケーションフレームワークです。「同じことを繰り返さない」というRailsの基本理念のもと、他のフレームワークより少ないコードで簡単に開発できるよう設計されています。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

CSS

CSSはXMLやHTMLで表現した色・レイアウト・フォントなどの要素を指示する仕様の1つです。

0グッド

0クリップ

投稿2017/01/03 04:24

###前提・実現したいこと
rubyでnokogiriを使い,スクレイピングを試しにしようとしています
以下のサイトからタイトル(家の名前),住所を取ろうとしています.
https://www.sumunda.jp/881/index.html

###発生している問題・エラーメッセージ
タイトルを取得することはできるものの,住所が取得できずにいます.

イメージ説明

###該当のソースコード
xpathの取得などはクロームの"検証"からcopy→copy selector/XPathでコピーしています.

require 'nokogiri' require 'open-uri' titles = [] addresses = [] arrurl = [] arrurl << 'https://www.sumunda.jp/881/index.html' arrurl.each_with_index do |url, i| user_agent = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.63 Safari/537.36' charset = nil begin html = open(url, "User-Agent" => user_agent) do |f| charset = f.charset f.read end doc = Nokogiri::HTML.parse(html, nil, charset) titles << doc.xpath('//*[@id="mainTitleInner"]/div[1]/h2/text()') addresses << doc.xpath('//*[@id="main"]/div[4]/table/tbody/tr[3]/td[1]').text rescue puts url puts 'error' end end puts titles[0] puts addresses[0]

###試したこと
文字コードの問題かと思い
doc = Nokogiri::HTML.parse(html, nil, 'utf-8')
などとして試してみましたがダメでした.

###補足情報(言語/FW/ツール等のバージョンなど)
nokogiri 1.6.8
ruby 2.3.0

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

単にxpathが間違っているだけですね。
xpath('//*[@id="main"]/div[4]/table/tr[2]/td[1]')

xpathの取得などはクロームの"検証"からcopy→copy selector/XPathでコピーしています.

ツールに頼らず、HTMLを見ましょう。あるいは、ツールの使い方を間違っているのかも。

投稿2017/01/03 16:46

otn

総合スコア84423

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

Buenos dias.
Soy icechikin.
De donde eres?
Soy de Mexico.
Estudio en Tokio universidad.
Quiero tu pregunta.

投稿2017/01/03 09:39

hchikin

総合スコア15

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問