更新されるwebページの情報繰り返し取得したいと考えています。
//[@id='TSm']/div[#{i}]/h2/text() の部分は本文を取得し、
//[@id='TSm']/div[#{i}]/h2/a の部分でハッシュタグやurlを取得しています。
ここで、ハッシュタグのみを取得するためにはどのようにすればよいでしょうか?
よろしくお願いします。
ruby
1# -*- coding: utf-8 -*- 2require 'nokogiri' 3require 'open-uri' 4require "kconv" 5 6doc = Nokogiri::HTML(open('http://realtime.search.yahoo.co.jp/search?lz=1&ei=UTF-8&rkf=1&ch=8')) 7File.open("write.txt", "w:UTF-8") do |f| 8 a = [] 9for i in 1..10 do 10 x = doc.xpath("//*[@id='TSm']/div[#{i}]/h2/text()","//*[@id='TSm']/div[#{i}]/h2/a") 11 12 y = a.push(x) 13 end 14 f.puts y 15 16end
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。