質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.65%

Rubyで作成したスクレイピングのプログラムが毎回実行結果が変わってしまう

受付中

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 695

dlrowolleh

score 118

よろしくお願いします。
Rubyで作成したスクレイピングのプログラムが毎回実行結果が変わってしまいます。

前提・実現したいこと→実行結果が毎回変わってしまう原因・想定していた実行結果をエられるように修正したいので、アドバイスが欲しい。

アマゾンの本のカテゴリ名を表示するプログラム練習としてをサンプルを参考に作成しました。
想定していた実行結果が得られませんでした。
コードをどのように修正すればいいでしょうか?

試したこと

一回目

$ ruby scraping.rb 
/
/
/
/
Kindleストア/ビジネス・経済
/
Kindleストア/コンピュータ・IT


二回目

$ ruby scraping.rb 
/
/
/
/
/
/


三回目

$ ruby scraping.rb 
/
/
/
/
/
本/ビジネス・経済


四回目

$ ruby scraping.rb 
/
/
/
/
/


五回目

$ ruby scraping.rb 
/
本/ビジネス・経済
/
本/コンピュータ・IT
/
Kindleストア/ビジネス・経済
/
Kindleストア/コンピュータ・IT


です。

該当のソースコード

#scraping.rb(該当のコード) 
  # -*- coding: utf-8 -*-                                                                                                         
  require 'anemone'
  require 'nokogiri'
  require 'kconv'

  urls = []
  urls.push("http://www.amazon.co.jp/gp/bestsellers/digital-text/2291657051/")
  urls.push("http://www.amazon.co.jp/gp/bestsellers/digital-text/2291905051/")
  urls.push("http://www.amazon.co.jp/gp/bestsellers/books/466298/")
  urls.push("http://www.amazon.co.jp/gp/bestsellers/books/466282/")

  Anemone.crawl(urls, :depth_limit => 0) do |anemone|
          anemone.on_every_page do |page|
          # 文字コードをUTF8に変換したうえで、Nokogiriでパース
          doc = Nokogiri::HTML.parse(page.body.toutf8)

          category = doc.xpath("//*[@id='zg_browseRoot']/ul/li/a").text

          # カテゴリ名の表示
          sub_category = doc.xpath("//*[@id=\"zg_listTitle\"]/span").text

          puts category+"/"+sub_category
      end
  end
urls = []
  urls.push("http://www.amazon.co.jp/gp/bestsellers/digital-text/2291657051/")
  urls.push("http://www.amazon.co.jp/gp/bestsellers/digital-text/2291905051/")
  urls.push("http://www.amazon.co.jp/gp/bestsellers/books/466298/")
  urls.push("http://www.amazon.co.jp/gp/bestsellers/books/466282/")


の部分でURLを予め指定していて、

Anemone.crawl(urls, :depth_limit => 0) do |anemone|
          anemone.on_every_page do |page|
          # 文字コードをUTF8に変換したうえで、Nokogiriでパース
          doc = Nokogiri::HTML.parse(page.body.toutf8)

          category = doc.xpath("//*[@id='zg_browseRoot']/ul/li/a").text

          # カテゴリ名の表示
          sub_category = doc.xpath("//*[@id=\"zg_listTitle\"]/span").text

          puts category+"/"+sub_category
      end


の部分で順番にアクセスをして行き、カテゴリ名を取得・表示している(コメント文の通り?)という処理という解釈をしております。
そうなると、想定していた実行結果と異なります。
想定が間違っている、あるいはコードが間違っていると思うのですが、
よく分かりませんでした。
アドバイスいただけないでしょうか?

想定していた実行結果

$ ruby scraping.rb 
Kindleストア/コンピュータ・IT
本/コンピュータ・IT
Kindleストア/ビジネス・経済
本/ビジネス・経済


毎回実行しても同じ結果が得られると思っています。

補足情報(言語/FW/ツール等のバージョンなど)

環境はUbuntu15.10

$ ruby -v
ruby 2.2.4p230 (2015-12-16 revision 53155) [x86_64-linux]


です。
何卒よろしくお願いします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

0

「取得しているHTMLが違うから」という自明なこと以外にはないと思います。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.65%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる