編集履歴

回答編集履歴

追記

2017/10/05 04:26

投稿

スコア1683

answer CHANGED Viewed

@@ -22,6 +22,7 @@
 0. 1ページごとにページを取得してから遷移していく
 #####ここからコメントに応じた追記
+スクレイピングは、Rubyの問題より、HTML、CSS、Javascriptを読めるかどうかの方がウェイトが大きいです。
 ```ruby
 #!/usr/bin/env ruby
 # -*- encoding:utf-8 -*-

コメントに応じた追記

2017/10/05 04:25

投稿

NCC1701

スコア1683

answer CHANGED Viewed

@@ -19,4 +19,72 @@
 あとはページの取得の仕方ですが、設計の方針によります。大まかに、次の2つの方法が考えられますので、頭の体操も含めて考えてみてください。
 0. 全てのページのurlを構成してからページを取得する
 （ヒント`<a href="https://ameblo.jp/sunsuntaiyo/entrylist-646.html" data-uranus-component="paginationEnd" class="skin-paginationEnd skin-btnIndex js-paginationEnd"><span data-uranus-icon="end"></span></a>`）
-0. 1ページごとにページを取得してから遷移していく
+0. 1ページごとにページを取得してから遷移していく
+#####ここからコメントに応じた追記
+```ruby
+#!/usr/bin/env ruby
+# -*- encoding:utf-8 -*-
+require 'benchmark'
+require "open-uri"
+require "nokogiri"
+def first
+  url = "https://ameblo.jp/sunsuntaiyo/entrylist.html"
+  user_agent = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.63 Safari/537.36'
+  charset = nil
+  html = open(url, "User-Agent" => user_agent) do |f|
+    charset = f.charset
+    f.read
+  end
+  doc = Nokogiri::HTML.parse(html, nil, charset)
+  page_end = doc.css('.skin-paginationEnd').attribute("href").value.tr('^0-9', '').to_i
+  @first = []
+  1.upto(page_end) do |num|
+    url = "https://ameblo.jp/sunsuntaiyo/entrylist-%d.html"%(num)
+    charset = nil
+    html = open(url, "User-Agent" => user_agent) do |f|
+      charset = f.charset
+      f.read
+    end
+    doc = Nokogiri::HTML.parse(html, nil, charset)
+    doc.css("#main > div.skin-blogArchive > div.skin-blogArchiveBody.skin-bgMain > ul > li > div > div:nth-child(2) > h2 > a").each do |row|
+      @first << row
+    end
+  end
+end
+def second
+  url = "https://ameblo.jp/sunsuntaiyo/entrylist.html"
+  user_agent = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.63 Safari/537.36'
+  @second = []
+  while url
+    charset = nil
+    html = open(url, "User-Agent" => user_agent) do |f|
+      charset = f.charset
+      f.read
+    end
+    doc = Nokogiri::HTML.parse(html, nil, charset)
+    doc.css("#main > div.skin-blogArchive > div.skin-blogArchiveBody.skin-bgMain > ul > li > div > div:nth-child(2) > h2 > a").each do |row|
+      @second << row
+    end
+    url = doc.css('.skin-paginationNext').first.attribute("href")
+  end
+end
+Benchmark.bm 15 do |r|
+  r.report "FIRST" do
+    first
+  end
+  r.report "SECOND" do
+    second
+  end
+end
+p @first.size
+p @second.size
+```

誤字の修正

2017/10/05 04:24

投稿

NCC1701

スコア1683

answer CHANGED Viewed

@@ -14,7 +14,7 @@
 ```
 はページの作り方を見ると、`empty`になる可能性はほぼありません。無限ループに陥ります。
-そして、`unless doc.css('.skin-btnIndex')`は`Nokogiri::XML::NodeSet`というものが返り値になります。ほぼArrayと思って処理すればよいでしょう。デバッグの際は`unless doc.css('.skin-btnIndex').empty?`の直前に`p unless doc.css('.skin-btnIndex')`などとして、値を見ながらいわゆるプリントデバッグを使えばわかりやすいです。（慣れてくればデバッガを使えばよいですが、おそらくデバッガが使えるくらいになると、本件の問題はやすやすと解決できるようになってます）
+そして、`doc.css('.skin-btnIndex')`は`Nokogiri::XML::NodeSet`というものが返り値になります。ほぼArrayと思って処理すればよいでしょう。デバッグの際は`unless doc.css('.skin-btnIndex').empty?`の直前に`p doc.css('.skin-btnIndex')`などとして、値を見ながらいわゆるプリントデバッグを使えばわかりやすいです。（慣れてくればデバッガを使えばよいですが、おそらくデバッガが使えるくらいになると、本件の問題はやすやすと解決できるようになってます）
 あとはページの取得の仕方ですが、設計の方針によります。大まかに、次の2つの方法が考えられますので、頭の体操も含めて考えてみてください。
 0. 全てのページのurlを構成してからページを取得する

コメントに応じた編集

2017/10/03 06:29

投稿

NCC1701

スコア1683

answer CHANGED Viewed

@@ -1,9 +1,22 @@
 ```ruby
 blog_id = ''
-url = "https://ameblo.jp/sunsuntaiyo/entrylist-#{blog_id}.html"
+url = "https://ameblo.jp/sunsuntaiyo/entrylist#{blog_id}.html"
 ```
+は無駄があります。
+```ruby
+url = "https://ameblo.jp/sunsuntaiyo/entrylist.html"
+```
+で十分です。
+また
+```ruby
+unless doc.css('.skin-btnIndex').empty?
+```
+はページの作り方を見ると、`empty`になる可能性はほぼありません。無限ループに陥ります。
-そもそも論ですが、`open(url, "User-Agent" => user_agent)`しても、これでは404 Not Foundしか戻ってきません。
-`url = https://ameblo.jp/sunsuntaiyo/entrylist-.html`
-になっているからです
+そして、`unless doc.css('.skin-btnIndex')`は`Nokogiri::XML::NodeSet`というものが返り値になります。ほぼArrayと思って処理すればよいでしょう。デバッグの際は`unless doc.css('.skin-btnIndex').empty?`の直前に`p unless doc.css('.skin-btnIndex')`などとして、値を見ながらいわゆるプリントデバッグを使えばわかりやすいです。（慣れてくればデバッガを使えばよいですが、おそらくデバッガが使えるくらいになると、本件の問題はやすやすと解決できるようになってます）
+あとはページの取得の仕方ですが、設計の方針によります。大まかに、次の2つの方法が考えられますので、頭の体操も含めて考えてみてください。
+0. 全てのページのurlを構成してからページを取得する
+（ヒント`<a href="https://ameblo.jp/sunsuntaiyo/entrylist-646.html" data-uranus-component="paginationEnd" class="skin-paginationEnd skin-btnIndex js-paginationEnd"><span data-uranus-icon="end"></span></a>`）
+0. 1ページごとにページを取得してから遷移していく