ただいま、gemのnokogiriを使用してスクレイピングをしています。
環境
nokogiri: 1.8.1
ruby 2.3.0
そこで疑問点が2つほどあります。
#####疑問点1
Ruby
1 html = open(url) do |page| 2 page.read 3 end 4 doc = Nokogiri::HTML.parse(html,nil,"utf-8")
#<Nokogiri::XML::Element:0x3fdde38dd6f4 name="meta" attributes=[#<Nokogiri::XML::Attr:0x3fdde38dd640 name="content" value="text/html; charset=UTF-8">
Nokogiri::HTMLでparseしているのに、取得したものがNokogiri::XMLとなってしまっているのですが、
これはどうしてなのでしょうか?
####疑問点2
html上では、ちゃんとネストされた要素が書かれているはずなのに、
Nokogiriで取得したのもが、以下のようになってしまい、検索がかけられないのですが、どうすればいいでしょうか??
#<Nokogiri::XML::CDATA: ~~~
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。