質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Ruby on Rails 6

Ruby on Rails 6は、オープンソースのWebアプリケーションフレームワークです。「同じことを繰り返さない」というRailsの基本理念のもと、他のフレームワークより少ないコードで簡単に開発できるよう設計されています。

解決済

wheneverを使って定期的に外部の記事をスクレイピングしたい。

AkiDatsugoku26
AkiDatsugoku26

総合スコア25

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Ruby on Rails 6

Ruby on Rails 6は、オープンソースのWebアプリケーションフレームワークです。「同じことを繰り返さない」というRailsの基本理念のもと、他のフレームワークより少ないコードで簡単に開発できるよう設計されています。

1回答

0評価

0クリップ

339閲覧

投稿2021/12/30 04:04

前提・実現したいこと

現状手動で実行しているスクレイピングをwheneverを使って2時間に1回自動で、
情報を取得するようにしたいです。

特にtaskの書き方が分からず困っています。

発生している問題・エラーメッセージ

# lib/tasks/get_article.rake namespace :get_article do desc "2時間に1回記事を取得する" task scraping: :environment do  # こちらのコーディングの仕方が分かりません。 end end

試したこと

こちらの記事を参照しながらwheneverをインストールし、config/schedule.rbに
最低限の設定をコーディングしました。

# schedule.rb require File.expand_path(File.dirname(__FILE__) + "/environment") set :output, "#{Rails.root}/log/cron.log" rails_env = ENV['RAILS_ENV'] ||= 'development' set :environment, rails_env # 2時間ごとに[lib/tasks/check_date.rake]を実行する every 2.hours do rake "get_article:scraping" end

手動でスクレイピングをする際はモデルに書いた下記を
実行して情報を取得しています。

model

require 'mechanize' class Scraping < ApplicationRecord def self.anime_urls links = [] agent = Mechanize.new current_page = agent.get("https://xxxxxxx.jp/xxxxx/xxxxxx/") elements = current_page.search('.ranking-list .item a') sleep 2 elements.each do |ele| links << ele.get_attribute('href') end links.each do |link| get_scraping('https://xxxxxxx.jp/' + link) end end def self.get_scraping(link) agent = agent = Mechanize.new page = agent.get(link) title = page.at('.arti-header .head').inner_text sleep 2 image_url = page.at('.figure-area figure img')[:src] if page.at('.figure-area figure img') sleep 2 detail = page.at('.arti-summary').inner_text sleep 2 page = link sleep 2 category = "アニメ" scraping = Scraping.new(title: title, image_url: image_url, detail: detail, page: page, category: category) scraping.save end end

補足情報(FW/ツールのバージョンなど)

下記の設定がないと上手くいかないらしいので追記しました

# config/application.rb config.autoload_paths += %W(#{config.root}/lib) config.enable_dependency_loading = true

ruby 2.6.3
Rails 6.0.0

考え方や解決の糸口になりそうなことがあれば是非助言をお願いしたいです。
どうぞよろしくお願いいたします。

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Ruby on Rails 6

Ruby on Rails 6は、オープンソースのWebアプリケーションフレームワークです。「同じことを繰り返さない」というRailsの基本理念のもと、他のフレームワークより少ないコードで簡単に開発できるよう設計されています。