ページを推移させスクレイピングする方法

Question

[このサイト](https://qiita.com/ya_s_u/items/c4f027df9be34fad8be5)を参考に１ページ毎にページ推移し、そのページをスクレイピングして、ブラウザ上に表示させたいのですが、うまくいきません。スクレイピング先の記事一覧は、 https://ameblo.jp/sunsuntaiyo/entrylist.html https://ameblo.jp/sunsuntaiyo/entrylist−２.html https://ameblo.jp/sunsuntaiyo/entrylist-３.html ・・・と推移していくようです。そこで、１、unless文の中にあるcssで指定されているところはページネーションがemptyかどうかを確認している、という認識でいいでしょうか？２、attribute('href')のあとにvalueをつける必要はあるのでしょうか？３、全体としての原因と解決策の３つを教えていただけたら幸いです。コントローラー↓ ```ここに言語を入力 def top require "open-uri" require "nokogiri" blog_id = '' url = "https://ameblo.jp/sunsuntaiyo/entrylist#{blog_id}.html" loop do user_agent = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.63 Safari/537.36' charset = nil html = open(url, "User-Agent" => user_agent) do |f| charset = f.charset f.read end doc = Nokogiri::HTML.parse(html, nil, charset) @titles = [] doc.css("#main > div.skin-blogArchive > div.skin-blogArchiveBody.skin-bgMain > ul > li > div > div:nth-child(2) > h2 > a").each do |row| @titles << row end unless doc.css('.skin-btnIndex').empty? url = doc.css('.skin-btnIndex').attribute('href').value else break end end end ``` view.html.erb↓ ```ここに言語を入力 <% @titles.each do |title| %>

<%= title.text %>

<% end %> ```

Accepted Answer

```ruby blog_id = '' url = "https://ameblo.jp/sunsuntaiyo/entrylist#{blog_id}.html" ``` は無駄があります。 ```ruby url = "https://ameblo.jp/sunsuntaiyo/entrylist.html" ``` で十分です。また ```ruby unless doc.css('.skin-btnIndex').empty? ``` はページの作り方を見ると、`empty`になる可能性はほぼありません。無限ループに陥ります。そして、`doc.css('.skin-btnIndex')`は`Nokogiri::XML::NodeSet`というものが返り値になります。ほぼArrayと思って処理すればよいでしょう。デバッグの際は`unless doc.css('.skin-btnIndex').empty?`の直前に`p doc.css('.skin-btnIndex')`などとして、値を見ながらいわゆるプリントデバッグを使えばわかりやすいです。（慣れてくればデバッガを使えばよいですが、おそらくデバッガが使えるくらいになると、本件の問題はやすやすと解決できるようになってます）あとはページの取得の仕方ですが、設計の方針によります。大まかに、次の2つの方法が考えられますので、頭の体操も含めて考えてみてください。 0. 全てのページのurlを構成してからページを取得する（ヒント``） 0. 1ページごとにページを取得してから遷移していく #####ここからコメントに応じた追記スクレイピングは、Rubyの問題より、HTML、CSS、Javascriptを読めるかどうかの方がウェイトが大きいです。 ```ruby #!/usr/bin/env ruby # -*- encoding:utf-8 -*- require 'benchmark' require "open-uri" require "nokogiri" def first url = "https://ameblo.jp/sunsuntaiyo/entrylist.html" user_agent = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.63 Safari/537.36' charset = nil html = open(url, "User-Agent" => user_agent) do |f| charset = f.charset f.read end doc = Nokogiri::HTML.parse(html, nil, charset) page_end = doc.css('.skin-paginationEnd').attribute("href").value.tr('^0-9', '').to_i @first = [] 1.upto(page_end) do |num| url = "https://ameblo.jp/sunsuntaiyo/entrylist-%d.html"%(num) charset = nil html = open(url, "User-Agent" => user_agent) do |f| charset = f.charset f.read end doc = Nokogiri::HTML.parse(html, nil, charset) doc.css("#main > div.skin-blogArchive > div.skin-blogArchiveBody.skin-bgMain > ul > li > div > div:nth-child(2) > h2 > a").each do |row| @first << row end end end def second url = "https://ameblo.jp/sunsuntaiyo/entrylist.html" user_agent = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.63 Safari/537.36' @second = [] while url charset = nil html = open(url, "User-Agent" => user_agent) do |f| charset = f.charset f.read end doc = Nokogiri::HTML.parse(html, nil, charset) doc.css("#main > div.skin-blogArchive > div.skin-blogArchiveBody.skin-bgMain > ul > li > div > div:nth-child(2) > h2 > a").each do |row| @second << row end url = doc.css('.skin-paginationNext').first.attribute("href") end end Benchmark.bm 15 do |r| r.report "FIRST" do first end r.report "SECOND" do second end end p @first.size p @second.size ```

関連した質問