質問編集履歴

発生している問題

2017/02/17 11:23

投稿

スコア8

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -22,19 +22,61 @@
+下記コードにて、検索結果件数・タイトル・ディスクリプションの取得は出来ました。
-ネット上の情報や書籍（「Rubyによるクローラー開発技法」）などを調べて色々と試しましたが、全く上手くいきません。
+ですが、検索結果10件分の「タイトル」「ディスクリプション」しか取得出来ていません。
-具体的に、
-1-検索結果のタイトル・ディスクリプション上で「B(例：詐欺)」などと記載されているものを抽出する事が出来ません。
+検索結果全件数の「タイトル」「ディスクリプション」を取得する事は出来ないのでしょうか?
+```
-2-上記に加え、検索結果10件までしかスクレイピングされません
+require 'nokogiri'
+require 'open-uri'
+require 'uri'
+require 'cgi'
+require 'sanitize'
+escaped_url = URI.escape("https://www.google.com/search?q=クローラー&oe=utf-8&hl=ja")
+doc = Nokogiri::HTML(open(escaped_url))
+# 検索結果の数
+puts doc.xpath("//*[@id='resultStats']/text()")
+doc.xpath('//h3/a').each do |link|
+    puts CGI.parse(link[:href])["adurl"]
+    puts link.content
+end
+# タイトルと解説文
+doc.at('#search').css('.g').each do |result|
+  puts result.at('h3 > a').text
+  puts Sanitize.clean result.at('.st')
+end
+```
 ###補足情報(言語/FW/ツール等のバージョンなど)

発生している問題について詳細を記載

2017/02/17 11:23

投稿

スコア8

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -26,6 +26,14 @@
+具体的に、
+1-検索結果のタイトル・ディスクリプション上で「B(例：詐欺)」などと記載されているものを抽出する事が出来ません。
+2-上記に加え、検索結果10件までしかスクレイピングされません
 ###補足情報(言語/FW/ツール等のバージョンなど)