質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.59%

Rubyでクローラーの作成

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 2,624

score 63

"Rubyによるクローラー開発技法"という本を見ながら簡易クローラーを作成しているのですが、うまくいきません。

# -*- coding: utf-8 -*-
require 'cgi'
require 'open-uri'
require 'rss'
require 'kconv'
require 'webrick'

class Site
  def initialize(url:"", title:"")
    @url, @title = url, title
  end
  attr_reader :url, :title

  def page_source
    @page_source ||= open(@url, &:read).toutf8
  end

  def output(formatter_klass)
    formatter_klass.new(self).format(parse)
  end
end

class SbcrTopics < Site
  def parse
    dates = page_source.scan(%r!(\d+)年 ?(\d+)月 ?(\d+)日<br />!)
    url_titles = page_source.scan(%r!^<a href="(.+?)">(.+?)</a><br />!)
    url_titles.zip(dates).map{|(aurl, atitle),
    ymd|[CGI.unescapeHTML(aurl),
    CGI.unescapeHTML(atitle), Time.local(*ymd)]
    }
  end
end

class Formatter
  def initialize(site)
    @url = site.url
    @title = site.title
  end
  attr_reader :url, :title
end

class TextFormatter < Formatter
  def format(url_title_time_ary)
    s = "Title: #{title}\nURL: #{url}\n\n"
    url_title_time_ary.each do |aurl, atitle, atime|
      s << "* (#{atime})#{atitle}\n"
      s << "  #{aurl}\n"
    end
    s
  end
end

class RSSFormatter < Formatter
  def format(url_title_time_ary)
    RSS::Maker.make("2.0") do |maker|
      maker.channel.updated = Time.now.to_s
      maker.channel.link = url
      maker.channel.title = title
      maker.channel.description = title
      url_title_time_ary.each do |aurl, atitle, atime|
        maker.items.new_item do |item|
          item.link = aurl
          item.title = atitle
          item.updated = atime
          item.description = atitle
        end
      end
    end
  end
end

class RSSServlet < WEBrick::HTTPServlet::AbstractServlet
  def do_GET(req, res)
    klass, opts = @options
    res.body = klass.new(opts).output(RSSFormatter).to_s
    res.content_type = "application/xml; charset=utf-8"
  end
end

def start_server
  srv = WEBrick::HTTPServer.new(:BindAddress => '127.0.0.1', :Port => 7777)
  srv.mount('/rss.xml', RSSServlet, SbcrTopics,
    url:"http://scrawler.sbcr.jp/samplepage.html",
    title:"WWW.SBCR.JP トピックス")
  # 場合によってはsrv.mount行を追加する
  trap("INT"){ srv.shutdown }
  srv.start
end

if ARGV.first == 'server'
  start_server
else
  site = SbcrTopics.new(
    url:"http://crawler.sbcr.jp/samplepage.html",
    title:"WWW.SBCR.JP トピックス")
  case ARGV.first
  when "rss-output"
    puts site.output RSSFormatter
  when "text-output"
    puts site.output TextFormatter
  end
end

コードは以上の通りです。

これを実行(ruby rssserver2.rb server)した状態で、ブラウザにてhttp://127.0.0.1:7777/rss.xmlに移動して見ると、

Internal Server Error

getaddrinfo: nodename nor servname provided, or not known

のように表示され、予想していたRSSの画面になりません。

何が原因なのでしょうか?わかる方がいらっしゃいましたら、ご教授宜しくお願い致します。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+2

 結論

簡単なスペルミスが原因です。
誤 http://scrawler.sbcr.jp/samplepage.html
正 http://crawler.sbcr.jp/samplepage.html

 該当部分

def start_server
  srv = WEBrick::HTTPServer.new(:BindAddress => '127.0.0.1', :Port => 7777)
  srv.mount('/rss.xml', RSSServlet, SbcrTopics,
    url:"http://scrawler.sbcr.jp/samplepage.html",
    title:"WWW.SBCR.JP トピックス")
  # 場合によってはsrv.mount行を追加する
  trap("INT"){ srv.shutdown }
  srv.start
end

こちらの「scrawler.sbcr.jp」を「crawler.sbcr.jp」に直せば動きます。

 詳細な説明

上記の通りなので、こちらは蛇足ですが原因を自分で調査できるようになって欲しいので
エラーの原因の特定の仕方を書いておきますね。

※以下の説明は、まだスペルミスとは分かっていない、
ソースコードが正しく記載されているという前提の元で調査している状態で書いたものです。

実行環境が書いていないので、分からないのですが、
CentOS6で実行してみました。
掲載してもらったコードをcrawler_sample.rbとして保存したものと思ってください。
同じように実行してみました。

 まず実行してみました。

 (1) サーバーを起動(ターミナル1)

$ ruby crawler_sample.rb server
[2016-09-16 10:56:34] INFO  WEBrick 1.3.1
[2016-09-16 10:56:34] INFO  ruby 2.3.1 (2016-04-26) [x86_64-linux]
[2016-09-16 10:56:34] INFO  WEBrick::HTTPServer#start: pid=42224 port=7777

 

 (2) 別のターミナルで rss.xmlにアクセス(ターミナル2)

wget http://127.0.0.1:7777/rss.xml
--2016-09-16 10:57:02--  http://127.0.0.1:7777/rss.xml
Connecting to 127.0.0.1:7777... connected.
HTTP request sent, awaiting response... 500 Internal Server Error
2016-09-16 10:57:02 ERROR 500: Internal Server Error.

 

 (3) ターミナル1でエラーが表示される

[2016-09-16 10:56:34] INFO  WEBrick 1.3.1
[2016-09-16 10:56:34] INFO  ruby 2.3.1 (2016-04-26) [x86_64-linux]
[2016-09-16 10:56:34] INFO  WEBrick::HTTPServer#start: pid=42224 port=7777
[2016-09-16 10:57:02] ERROR OpenURI::HTTPError: 404 Not Found
        /home/username/.rbenv/versions/2.3.1/lib/ruby/2.3.0/open-uri.rb:359:in `open_http'
        /home/username/.rbenv/versions/2.3.1/lib/ruby/2.3.0/open-uri.rb:737:in `buffer_open'
        /home/username/.rbenv/versions/2.3.1/lib/ruby/2.3.0/open-uri.rb:212:in `block in open_loop'
        /home/username/.rbenv/versions/2.3.1/lib/ruby/2.3.0/open-uri.rb:210:in `catch'
        /home/username/.rbenv/versions/2.3.1/lib/ruby/2.3.0/open-uri.rb:210:in `open_loop'
        /home/username/.rbenv/versions/2.3.1/lib/ruby/2.3.0/open-uri.rb:151:in `open_uri'
        /home/username/.rbenv/versions/2.3.1/lib/ruby/2.3.0/open-uri.rb:717:in `open'
        /home/username/.rbenv/versions/2.3.1/lib/ruby/2.3.0/open-uri.rb:35:in `open'
        crawler_sample.rb:15:in `page_source'
        crawler_sample.rb:25:in `parse'
        crawler_sample.rb:19:in `output'
        crawler_sample.rb:75:in `do_GET'
        /home/username/.rbenv/versions/2.3.1/lib/ruby/2.3.0/webrick/httpservlet/abstract.rb:107:in `service'
        /home/username/.rbenv/versions/2.3.1/lib/ruby/2.3.0/webrick/httpserver.rb:140:in `service'
        /home/username/.rbenv/versions/2.3.1/lib/ruby/2.3.0/webrick/httpserver.rb:96:in `run'
        /home/username/.rbenv/versions/2.3.1/lib/ruby/2.3.0/webrick/server.rb:296:in `block in start_thread'
127.0.0.1 - - [16/Sep/2016:10:57:02 JST] "GET /rss.xml HTTP/1.0" 500 293
- -> /rss.xml

 原因について

(3)のエラーを見ると、「ERROR OpenURI::HTTPError: 404 Not Found」となっていますので、
どこかのページが存在しないという事が分かります。
見るべきところは、コマンドライン引数に「server」を受け取って処理しているところです。
つまり、この部分になります。

def start_server
  srv = WEBrick::HTTPServer.new(:BindAddress => '127.0.0.1', :Port => 7777)
  srv.mount('/rss.xml', RSSServlet, SbcrTopics,
    url:"http://scrawler.sbcr.jp/samplepage.html",
    title:"WWW.SBCR.JP トピックス")
  # 場合によってはsrv.mount行を追加する
  trap("INT"){ srv.shutdown }
  srv.start
end

この時点でなんとなく予想がついているかもしれませんが、
このソースは、http://127.0.0.1:7777/rss.xml というアクセスに対して、
http://scrawler.sbcr.jp/samplepage.html の内容をRSSとして表示しようとしています。
という事は、http://scrawler.sbcr.jp/samplepage.html が存在しないのではないか?と予想できます。
もちろん実際に、ブラウザでアクセスすると見ることができませんので、これが原因です。

全体のソースコードのほかの部分を見てみると、似たようなURLを書いてある箇所があります。

if ARGV.first == 'server'
  start_server
else
  site = SbcrTopics.new(
    url:"http://crawler.sbcr.jp/samplepage.html",
    title:"WWW.SBCR.JP トピックス")
  case ARGV.first
  when "rss-output"
    puts site.output RSSFormatter
  when "text-output"
    puts site.output TextFormatter
  end
end

こちらでは、
http://scrawler.sbcr.jp/samplepage.html  ではなく、
http://crawler.sbcr.jp/samplepage.html と書かれています。
こちらはブラウザで見る事が出来ます。

なので、打ち間違いで、crawler.sbcr.jp を scrawler.sbcr.jpと書いてしまっていた事が分かりました。
先ほどの部分をcrawler.sbcr.jpに修正すればOKです。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/09/16 23:58

    とてもわかりやすい説明をありがとうございます!
    頑張ります!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.59%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る