wheneverを使って定期的に外部の記事をスクレイピングしたい。

前提・実現したいこと

現状手動で実行しているスクレイピングをwheneverを使って2時間に1回自動で、
情報を取得するようにしたいです。

特にtaskの書き方が分からず困っています。

発生している問題・エラーメッセージ

# lib/tasks/get_article.rake
namespace :get_article do 
  desc "2時間に1回記事を取得する"

  task scraping: :environment do
　# こちらのコーディングの仕方が分かりません。
  end
end

試したこと

こちらの記事を参照しながらwheneverをインストールし、config/schedule.rbに
最低限の設定をコーディングしました。

# schedule.rb 

require File.expand_path(File.dirname(__FILE__) + "/environment")

set :output, "#{Rails.root}/log/cron.log"
rails_env = ENV['RAILS_ENV'] ||= 'development'
set :environment, rails_env

# 2時間ごとに[lib/tasks/check_date.rake]を実行する
every 2.hours do
  rake "get_article:scraping"
end

手動でスクレイピングをする際はモデルに書いた下記を
実行して情報を取得しています。

model
1require 'mechanize'
2
3class Scraping < ApplicationRecord
4  
5  def self.anime_urls
6    links = []
7    agent = Mechanize.new
8    
9    current_page = agent.get("https://xxxxxxx.jp/xxxxx/xxxxxx/")
10    elements = current_page.search('.ranking-list .item a')
11    sleep 2
12    elements.each do |ele|
13      links << ele.get_attribute('href')
14    end
15    
16    links.each do |link|
17      get_scraping('https://xxxxxxx.jp/' + link)
18    end
19  end
20  
21  def self.get_scraping(link)
22    agent = agent = Mechanize.new
23    page = agent.get(link)
24    
25    title = page.at('.arti-header .head').inner_text
26    sleep 2
27    image_url = page.at('.figure-area figure img')[:src] if page.at('.figure-area figure img')
28    sleep 2
29    detail = page.at('.arti-summary').inner_text
30    sleep 2
31    page =  link
32    sleep 2
33    category = "アニメ"
34    
35    scraping = Scraping.new(title: title, image_url: image_url, detail: detail, page: page, category: category)
36    scraping.save
37  end
38end

補足情報（FW/ツールのバージョンなど）

下記の設定がないと上手くいかないらしいので追記しました

# config/application.rb

 config.autoload_paths += %W(#{config.root}/lib)
 config.enable_dependency_loading = true

ruby 2.6.3
Rails 6.0.0

考え方や解決の糸口になりそうなことがあれば是非助言をお願いしたいです。
どうぞよろしくお願いいたします。

行動規範の内容に同意します

回答1件

自己解決

こちら自己解決しましたので共有です。

まず結論からです。
質問には「特にtaskの書き方が分からず困っています」とありますが使いませんでした。
config/schedule.rbに定期的にモデルの命令を実行するように修正しました。

下記が上手くいった際のコードです。

# config/schedule.rb


# Rails.rootを使用するために必要。なぜなら、wheneverは読み込まれるときにrailsを起動する必要がある
require File.expand_path(File.dirname(__FILE__) + "/environment")

# cronを実行する環境変数
rails_env = ENV['RAILS_ENV'] ||= 'development'
set :environment, rails_env
env :PATH, ENV['PATH']
set :output, "#{Rails.root}/log/cron.log"

# ※間隔を2時間から30分に変更しました。
every 30.minute do
  begin
    runner "Scraping.data_reset"
    runner "Scraping.huga_urls"
    runner "Scraping.hoge_urls"
  rescue => e
    Rails.logger.error("aborted rails runner")
    raise e
  end
end

そしてこちらが記事をスクレイピングしてくる命令を書いた
モデルになります。

require 'mechanize'

class Scraping < ApplicationRecord
  # 漫画・アニメ
  
  def self.fuga_urls
    links = []
    agent = Mechanize.new
    
    current_page = agent.get("https://xxxxxxxx.jp/xxxxx/xxxxx/")
    elements = current_page.search('.ranking-list .item a')
    sleep 2
    elements.each do |ele|
      links << ele.get_attribute('href')
    end
    
    links.each do |link|
      get_scraping('https://xxxxxxxxxx/' + link)
    end
  end
  
  def self.get_scraping(link)
    agent = agent = Mechanize.new
    page = agent.get(link)
    
    title = page.at('.arti-header .head').inner_text
    sleep 1
    image_url = page.at('.figure-area figure img')[:src] if page.at('.figure-area figure img')
    sleep 1
    detail = page.at('.arti-summary').inner_text
    sleep 1
    page =  link
    sleep 1
    category = "アニメ"
    
    scraping = Scraping.new(title: title, image_url: image_url, detail: detail, page: page, category: category)
    scraping.save
  end
  
  
  
  def self.hoge_urls
    links = []
    agent = Mechanize.new
    
    
    current_page = agent.get("https://xxxxxxxxx/xxxxxxx/xxxxxxxxx")
    elements = current_page.search('.m-content-item .m-content-item-image a')
    sleep 2
    elements.each do |ele|
      links << ele.get_attribute('href')
    end
    
    links.each do |link|
      get_hoge('https://xxxxxxxxx' + link)
    end
  end
  
  def self.get_hoge(link)
    agent = agent = Mechanize.new
    page = agent.get(link)
    
    title = page.at('.m-article-header-title').inner_text
    sleep 1
    image_url = page.at('.m-article-eyecatch a img')[:src] if page.at('.m-article-eyecatch a img')
    sleep 1
    movie_url = page.at('.m-article-eyecatch iframe')[:src] if page.at('.m-article-eyecatch iframe')
    sleep 1
    page = link
    sleep 1
    category = "マンガ"
    
    scraping = Scraping.new(title: title, image_url: image_url, page: page, category: category, movie_url: movie_url)
    scraping.save
  end  
end

現状モデルに書いたスクレイピングの命令が正常に実行できている方であれば、
あとは記載したconfig/schedule.rbのrunnerに続く部分にアクション名を追記していけば
問題なく動作すると思います。

ただ気になるのはmechanizeのこうした記事は少なかったのですが、
そのほとんどがtaskを使って定期的な処理を実行していたことです。
僕の場合は使わなかったのでこのやり方は推奨されないのかもしれません。

当初の目的が達成できたので以上としましたが最適なやり方やもっと良い方法を
ご存じの方がいらっしゃいましたら是非教えてください。

投稿2022/01/16 04:04

AkiDatsugoku26

総合スコア35