RoRでのスクレイピングのやり方がわかりません

Question

Rubyでスクレイピングを試みてますが、全くうまく行きません
50時間試行錯誤しましたが全くうまくいきませんでした。
様々なサイトを見ましたが全く理解できません。

https://vsanna.me/2015/01/26/scraping_start_up/

例えばこのサイトにあるコードをそのまま貼り付けて実行しましたが、何も表示されません。
Ruby on rails で開発したいのですが、XXX.rbのファイルをどこに置けばいいのかも分かりません。
私がやろうとしていることはhttps://www.gakkou.net/chugaku/src/?srcmode=pref&p=2このサイトの各学校のデータ（番号や住所含む）をデータベースに流し込み、ビューで表示することです。そしてそれぞれにリンクを貼って各学校のページに飛びたいです。
どなたか助けてください。。。

Accepted Answer

苦労されているようなので、ヒントというか大枠だけ示します。スクレイピングの前段階として必要な知識が抜けているように思います。スクレイピングは高度な技術なので、基本的なプログラミングのレベルは必要となります。また、Rubyを使うのでRubyの文法についてもきちんと知っておかないとけないです。さらにRailsの知識も必要なので、いきなりスクレイピングだけやりたいというのは実は無理なのです。それでも、あえて教えるとするとこういう感じかなというのを書きます。もちろん全部は教えられないので、あくまでも導入部分だけです。 ### HTTPアクセスをする方法を知るまず、スクレイピングの前にHTTPアクセスをするためのライブラリが必要です。個人的にはhttpclientをおすすめします。 Gemfileに`gem 'httpclient'`を追記し、ターミナルでbundle installを実行します。まずは、このhttpclientを使って任意のURLのHTMLを取得できなければいけません。例えば、こんな感じのメソッドを作って、`get_html("http://www.yahoo.co.jp/")`という感じに使います。相手サイト、サーバに負荷をかけないように簡易的なキャッシュ機能を入れます。 rubyではエンコーディングが正しくないと例外で落ちるので、キャッシュファイルの入出力のエンコーディングはbinaryとしておきます。 ```ruby def get_html(url) client = HTTPClient.new client.connect_timeout = 10 client.send_timeout = 10 client.receive_timeout = 30 cache_id = Digest::SHA1.hexdigest(url) cache_path = "#{Rails.root}/tmp/cache/response/#{cache_id}" FileUtils.mkdir_p(File.dirname(cache_path), mode: 0771) # using cache if File.exist?(cache_path) Rails.logger.debug "using cache: url=#{url}" return File.read(cache_path, encoding: 'binary') end response = client.get(url, :follow_redirect => true) unless response.status == 200 raise "request failed: #{response.inspect}" end # no cache Rails.logger.debug "no cache: url=#{url}" File.open(cache_path, 'w:binary'){|f| f.print response.body } response.body end ``` ### どこに置くのかとりあえずapp/以下であれば自動で読み込み対象となります。デフォルトでそういう設定になっているはずなので。良く分からなければ、app/models/crawl.rbというのを作りましょう。 DBと関係なくても、モデルと呼ぶ場合もあるし問題ないかと。 ```ruby class Crawl def get_html(url) client = HTTPClient.new client.connect_timeout = 10 client.send_timeout = 10 client.receive_timeout = 30 cache_id = Digest::SHA1.hexdigest(url) cache_path = "#{Rails.root}/tmp/cache/response/#{cache_id}" FileUtils.mkdir_p(File.dirname(cache_path), mode: 0771) # using cache if File.exist?(cache_path) Rails.logger.debug "using cache: url=#{url}" return File.read(cache_path, encoding: 'binary') end response = client.get(url, :follow_redirect => true) unless response.status == 200 raise "request failed: #{response.inspect}" end # no cache Rails.logger.debug "no cache: url=#{url}" File.open(cache_path, 'w:binary'){|f| f.print response.body } response.body end end ``` 実行方法は2つあります。まず、rails consoleを実行する方法。 ``` $ rails console > Crawl.new.get_html("http://www.yahoo.co.jp/") ... ``` 次に、rails runnerを使う方法。この場合、画面に何も出ないので、Crawlのコードの中でputsなどを入れてください。 ``` $ rails runner 'Crawl.new.get_html("http://www.yahoo.co.jp/")' ``` ### Nokogiriを使ってみるここまでで、とりあえず任意のURLのHTMLを取れるようになりました。ようやくスクレイピングです。例えば、 https://www.gakkou.net/chugaku/src/?srcmode=pref&p=13 を例にします。 * ブラウザでhttps://www.gakkou.net/chugaku/src/?srcmode=pref&p=13にアクセス * ブラウザのソースを表示で、HTMLを確認する * 取得したい部分のHTML構造を把握する今回の例では、学校名を取りたいと思います。とりあえず、ソースをながめてdiv.UvsinfoBxの直下のh3タグが学校名っぽいし、繰り返しのパターンになっているなという風に考えます。 ```html

愛国中学校

``` これについては、試行錯誤して経験を積むしかないので、どこかのサイトを参考にするという事はできません。色々試しましょう。この場合、こういう風にコードを組む事になるでしょう。とりあえず、プロジェクト直下にcrawl_test.rbとしてそのまま保存します。 ```ruby html = Crawl.new.get_html("https://www.gakkou.net/chugaku/src/?srcmode=pref&p=13") doc = Nokogiri::parse(html) doc.css('div.UvsinfoBx').each do |div| puts div.css('h3').first.text.to_s end ``` そして、実行するとこういう感じに出力されます。 ``` $ rails runner ./crawl_test.rb 愛国中学校青ケ島村立青ケ島中学校青山学院中等部 ... ``` 以上が、基本的なスクレイピングの流れです。スクレイピング対象のページごとにHTML構造が違うので、取得コードを変える必要がありますし、 URLの一覧を取得する処理も必要です。この点については、さすがに手取り足取りというわけにはいかないので工夫してみてください。

Answer

まずはRubyやRoRの基礎からしっかり勉強していきましょう．
それが結局は一番の近道です．

ドットインストールなどが手軽でいいかもしれません．
（[Ruby](https://dotinstall.com/lessons/basic_ruby_v3)，[RoR](https://dotinstall.com/lessons/basic_rails_v3)）

HTTPアクセスをする方法を知る

どこに置くのか

Nokogiriを使ってみる

関連した質問