質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

Q&A

1回答

1133閲覧

nokogiriについて

junya451054

総合スコア69

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

0グッド

0クリップ

投稿2018/03/06 06:47

ただいま、gemのnokogiriを使用してスクレイピングをしています。

環境
nokogiri: 1.8.1
ruby 2.3.0

そこで疑問点が2つほどあります。

#####疑問点1

Ruby

1 html = open(url) do |page| 2 page.read 3 end 4 doc = Nokogiri::HTML.parse(html,nil,"utf-8")
#<Nokogiri::XML::Element:0x3fdde38dd6f4 name="meta" attributes=[#<Nokogiri::XML::Attr:0x3fdde38dd640 name="content" value="text/html; charset=UTF-8">

Nokogiri::HTMLでparseしているのに、取得したものがNokogiri::XMLとなってしまっているのですが、
これはどうしてなのでしょうか?

####疑問点2

html上では、ちゃんとネストされた要素が書かれているはずなのに、
Nokogiriで取得したのもが、以下のようになってしまい、検索がかけられないのですが、どうすればいいでしょうか??

#<Nokogiri::XML::CDATA: ~~~

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

docのクラスはNokogiri::HTML::Documentになっていませんか?
そこからxpath等でエレメントを取得した場合は、Nokogiri::XML::Elementクラスで正常です。

html上では、ちゃんとネストされた要素が書かれているはずなのに、

それはHTMLを見ないと何とも。

投稿2018/03/06 07:16

otn

総合スコア84499

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問