AtomAPIからGETし，Xpathで指定ワードのURLを全て取得する

有報キャッチャー（http://resource.ufocatch.com/）というAtomAPIを実装し、このURL（http://resource.ufocatch.com/atom/edinet/query/6190）に対してGETリクエストをし、四半期報告書のURLを全て取得したいです．
そこで，以下のようなコードを考えたのですが、これではページの一番初めに出てくる四半期報告書のURIしか取得できません．全ての四半期報告書のURIを取得するにはどのようなコードを組めばいいでしょうか？
アドバイスお願いいたします．

ruby
1require 'net/http'
2require 'uri'
3require 'rexml/document'
4
5uri = URI.parse("http://resource.ufocatch.com/atom/edinet/query/6190")
6doc = REXML::Document.new(Net::HTTP.get(uri))
7
8shihanki_uri = REXML::XPath.match(doc,'/feed/entry/title[contains(text(),"四半期報告書")]/following-sibling::link[1]')
9shihanki_uri = shihanki_uri.to_s
10shihanki_uri = shihanki_uri.match(/href='(.+)'/)
11
12

行動規範の内容に同意します

回答1件

ベストアンサー

shihanki_uri = REXML::XPath.match(doc,'/feed/entry/title[contains(text(),"四半期報告書")]/following-sibling::link[1]')
上のコードのlink[1]で[1]を指定しているため、一番初めに出てくる四半期報告書のURIしか取得できない状態になっています。
下のように[1]を外して、全て取得して、pdfのパスのみ取得することで実現できます。
shihanki_uri_list = REXML::XPath.match(doc,'/feed/entry/title[contains(text(),"四半期報告書")]/following-sibling::link')

ruby
1require 'net/http'
2require 'uri'
3require 'rexml/document'
4
5uri = URI.parse("http://resource.ufocatch.com/atom/edinet/query/6190")
6doc = REXML::Document.new(Net::HTTP.get(uri))
7
8shihanki_uri_list = REXML::XPath.match(doc,'/feed/entry/title[contains(text(),"四半期報告書")]/following-sibling::link')
9
10url_list =
11  shihanki_uri_list.reduce([]) do |list, shihanki_uri|
12    matched = shihanki_uri.to_s.match(/href='(.+\/pdf\/.+?)'/)
13    next list unless matched
14
15    list.push matched[1]
16  end
17
18p url_list
19#=> ["http://resource.ufocatch.com/pdf/edinet/ED2016111401720", "http://resource.ufocatch.com/pdf/edinet/ED2016081201593"]