前提・実現したいこと
現状手動で実行しているスクレイピングをwheneverを使って2時間に1回自動で、
情報を取得するようにしたいです。
特にtaskの書き方が分からず困っています。
発生している問題・エラーメッセージ
# lib/tasks/get_article.rake namespace :get_article do desc "2時間に1回記事を取得する" task scraping: :environment do # こちらのコーディングの仕方が分かりません。 end end
試したこと
こちらの記事を参照しながらwheneverをインストールし、config/schedule.rbに
最低限の設定をコーディングしました。
# schedule.rb require File.expand_path(File.dirname(__FILE__) + "/environment") set :output, "#{Rails.root}/log/cron.log" rails_env = ENV['RAILS_ENV'] ||= 'development' set :environment, rails_env # 2時間ごとに[lib/tasks/check_date.rake]を実行する every 2.hours do rake "get_article:scraping" end
手動でスクレイピングをする際はモデルに書いた下記を
実行して情報を取得しています。
model
require 'mechanize' class Scraping < ApplicationRecord def self.anime_urls links = [] agent = Mechanize.new current_page = agent.get("https://xxxxxxx.jp/xxxxx/xxxxxx/") elements = current_page.search('.ranking-list .item a') sleep 2 elements.each do |ele| links << ele.get_attribute('href') end links.each do |link| get_scraping('https://xxxxxxx.jp/' + link) end end def self.get_scraping(link) agent = agent = Mechanize.new page = agent.get(link) title = page.at('.arti-header .head').inner_text sleep 2 image_url = page.at('.figure-area figure img')[:src] if page.at('.figure-area figure img') sleep 2 detail = page.at('.arti-summary').inner_text sleep 2 page = link sleep 2 category = "アニメ" scraping = Scraping.new(title: title, image_url: image_url, detail: detail, page: page, category: category) scraping.save end end
補足情報(FW/ツールのバージョンなど)
下記の設定がないと上手くいかないらしいので追記しました
# config/application.rb config.autoload_paths += %W(#{config.root}/lib) config.enable_dependency_loading = true
ruby 2.6.3
Rails 6.0.0
考え方や解決の糸口になりそうなことがあれば是非助言をお願いしたいです。
どうぞよろしくお願いいたします。
まだ回答がついていません
会員登録して回答してみよう