質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

XPath(XML Path)

XML Path Language (XPath; XMLパス言語)は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文の事をいいます。XPathはXMLとは別の構文を使用します。XMLドキュメントの抽象、論理ストラクチャ上で動作します。

Q&A

解決済

1回答

4133閲覧

Xpathが抽出できません(Nokogiriで使いたいです)

hfhff

総合スコア8

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

XPath(XML Path)

XML Path Language (XPath; XMLパス言語)は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文の事をいいます。XPathはXMLとは別の構文を使用します。XMLドキュメントの抽象、論理ストラクチャ上で動作します。

0グッド

0クリップ

投稿2015/05/21 14:34

lang

1<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> 2<html> 3 <body> 4 <div id="container"> 5 <div class="w980"> 6 <div id="bbin" class="clearfix"> 7 <div class="left1"> 8 <div class="right2"> 9 <div id="sheet" class="right2in"> 10 <div class="paginate"> 11 <h1 class="clearfix"> 12 <div class="fkd"></div> 13 <div class="entrybody"> 14 <div class="entrybody"> 15 <div class="entrybody"> 16 . 17 . 18 .

RubyのgemであるNokogiriを使い、以上のようなHTMLから一番下の<div class="entrybody">のXpathをすべて取得したいです
自分で調べたところ、次のような記述で実現できるかと思ったのですがエラーがでてしまいました

lang

1require 'open-uri' 2require 'nokogiri' 3 4url = "ほげ" 5 6charset = nil 7html = open(url) do |f| 8 charset = f.charset 9 f.read 10end 11 12doc = Nokogiri::HTML.parse(html, nil, charset) 13body = doc.xpath("/html/body/div[1]/div/div[2]/div/div[1]/div[3]/div/div[@class="entrybody"]/") 14p body.size

エラー
"syntax error, unexpected ')', expecting end-of-input"

このXpathはFireFoxのアドオンであるFirePathを使い、はじめの<div class="entrybody">を取得し、それを複数選択できるよう自分で書き直しました
以上のプログラムにあるxpathではなく、FirePathで取得した以下のxpathではエラーにはなりませんでした
/html/body/div[1]/div/div[2]/div/div[1]/div[3]/div/div[3]/
また、上記のHTMLはXpath取得に必要だと思う部分のみ書き出しています

わかる方いましたらご教示お願いします

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

文字列の途中でダブルクォートが出現し、引数が不正となっています。
文字列中にダブルクォートが出現する場合、エスケープする必要があると思います。
以下でどうでしょうか?

lang

1body = doc.xpath("/html/body/div[1]/div/div[2]/div/div[1]/div[3]/div/div[@class=\"entrybody\"]/")

投稿2015/05/21 14:51

ryunix

総合スコア1656

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hfhff

2015/05/21 15:11

エスケープし、さらに最後の/を消したところできました 回答ありがとうございました おかげで解決しました
ryunix

2015/05/21 15:13

お役に立ててなによりです :)
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問