mechanizeで複数サイトをスクレイピングする際の最適な方法が知りたい。

前提・実現したいこと

mechanizeを使ってニュースサイトの情報をスクレイピングしています。

1つのサイトは下記のコードで問題なく必要な情報を抽出できていますが、
このサイトとは別のサイトから新たに情報を取ってきた場合のコードの書き方がわからず、
悩んでいます。

該当のソースコード

model
1require 'mechanize'
2
3class Scraping < ApplicationRecord
4  
5  def self.fuga_urls
6    links = []
7    agent = Mechanize.new
8    
9    current_page = agent.get("https://https://xxxxxxxx/xxxxxxxx/xxxxxxxx/")
10    elements = current_page.search('.ranking-list .item a')
11    sleep 2
12    elements.each do |ele|
13      links << ele.get_attribute('href')
14    end
15    
16    links.each do |link|
17      get_scraping('https://xxxxxxxx/' + link)
18    end
19    
20  end
21  
22  def self.get_scraping(link)
23    agent = agent = Mechanize.new
24    page = agent.get(link)
25    
26    title = page.at('.arti-header .head').inner_text
27    sleep 2
28    image_url = page.at('.figure-area img')[:src] if page.at('.figure-area img')
29    sleep 2
30    detail = page.at('.arti-summary').inner_text
31    sleep 2
32    page =  link
33    sleep 2
34    category = "hoge"
35    
36    scraping = Scraping.new(title: title, image_url: image_url, detail: detail, page: page, category: category)
37    scraping.save
38  end
39end

試したこと

モデルを新しく作ればとってこれると思うのですが、10個くらいのサイトでスクレイピング
を試したいと考えているので断念しました。

またグノシーなどニュースサイトのまとめアプリはいくつかありますがそれらのサービスがいくつもモデルをつくっているとは思えません。
理想は1つのモデルで完結させることですが「こっちのほうが良い！」など別の案も是非教えてほしいです。

新たに変数をつくることも考えたのですがこちらもコードがとても長くなりそうなので、
いったんこちらで質問してみました。

変数current_pageを繰り返し処理で入れ替えるなどはできるでしょうか。
良い案がございましたら是非ご助言いただけると嬉しいです！

行動規範の内容に同意します

回答1件

自己解決

こちら自己解決できましたので共有します。

結論からですが上記のモデルに新しくアクションを追加することで解決しました。
下記上手くいったコードを記載します。

model
1require 'mechanize'
2
3class Scraping < ApplicationRecord
4  # 漫画・アニメ
5  
6  def self.fuga_urls
7    links = []
8    agent = Mechanize.new
9    
10    current_page = agent.get("https://xxxxxxxx.jp/xxxxx/xxxxx/")
11    elements = current_page.search('.ranking-list .item a')
12    sleep 2
13    elements.each do |ele|
14      links << ele.get_attribute('href')
15    end
16    
17    links.each do |link|
18      get_scraping('https://xxxxxxxxxx/' + link)
19    end
20  end
21  
22  def self.get_scraping(link)
23    agent = agent = Mechanize.new
24    page = agent.get(link)
25    
26    title = page.at('.arti-header .head').inner_text
27    sleep 1
28    image_url = page.at('.figure-area figure img')[:src] if page.at('.figure-area figure img')
29    sleep 1
30    detail = page.at('.arti-summary').inner_text
31    sleep 1
32    page =  link
33    sleep 1
34    category = "アニメ"
35    
36    scraping = Scraping.new(title: title, image_url: image_url, detail: detail, page: page, category: category)
37    scraping.save
38  end
39  
40  
41  
42  def self.hoge_urls
43    links = []
44    agent = Mechanize.new
45    
46    
47    current_page = agent.get("https://xxxxxxxxx/xxxxxxx/xxxxxxxxx")
48    elements = current_page.search('.m-content-item .m-content-item-image a')
49    sleep 2
50    elements.each do |ele|
51      links << ele.get_attribute('href')
52    end
53    
54    links.each do |link|
55      get_hoge('https://xxxxxxxxx' + link)
56    end
57  end
58  
59  def self.get_hoge(link)
60    agent = agent = Mechanize.new
61    page = agent.get(link)
62    
63    title = page.at('.m-article-header-title').inner_text
64    sleep 1
65    image_url = page.at('.m-article-eyecatch a img')[:src] if page.at('.m-article-eyecatch a img')
66    sleep 1
67    movie_url = page.at('.m-article-eyecatch iframe')[:src] if page.at('.m-article-eyecatch iframe')
68    sleep 1
69    page = link
70    sleep 1
71    category = "マンガ"
72    
73    scraping = Scraping.new(title: title, image_url: image_url, page: page, category: category, movie_url: movie_url)
74    scraping.save
75  end  
76end

これでそれぞれのアクションを実行すると欲しい情報を取ってこれました。

teminal
1rails c
2Loading development environment (Rails 6.0.0)
32.6.3 :001 > Scraping.fuga_urls

teminal
1rails c
2Loading development environment (Rails 6.0.0)
32.6.3 :001 > Scraping.hoge_urls

アクションを実行する際
Scraping.hoge_urlsとなっておりますがScrapingのところにはモデル名を入れてください。
selfはそのモデル自身を指すらしいので念のため注意です。

投稿2022/01/15 14:36

AkiDatsugoku26

総合スコア35

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

mechanizeで複数サイトをスクレイピングする際の最適な方法が知りたい。

前提・実現したいこと

該当のソースコード

試したこと

関連した質問