Ruby nokogiriを用いたスクレイピングで404エラーが生じる

現在クローラーを作成してしまいます。
複数のサイトでクローリング処理は成功しているのですが、下記のURLに対してクローリング処理を実行したところ、なぜかコンソールに404 Not Found が出力されて要素の取得がうまくいきません。

スクレイピング先URL
https://www.brunarosso.com/s/designers/fendi/?category=men

上記URLにアクセスすると普通にコンテンツは表示されるのですが、nokogiriでスクレイピングを行うと要素の取得ができていません。下記が実行したコードです。

Ruby
1url = "https://www.brunarosso.com/s/designers/fendi/"
2
3charset = nil
4begin
5    html = open(url) do |f|
6        charset = f.charset
7        f.read
8    end
9    rescue OpenURI::HTTPError => e
10    puts e
11end
12doc = Nokogiri::HTML.parse(html, nil, charset)
13puts doc

上記のコードを実行した結果、コンソー内の出力結果は以下のようになります。

Ruby
1404 Not Found
2<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
3

普通は変数docの中にページの情報が全て代入されるはずなのですが、こちらのURLが対象だと上手くいきません。
どなたかこちらの問題に詳しい方がいらっしゃいましたら、ご教授をお願い致します。

CHERRY

2021/04/04 21:50

コマンドラインからcurl 等を利用してアクセスすると HTML は取得できますか？

行動規範の内容に同意します

回答2件

ベストアンサー

レスポンスに期待する HTML は入っているがステータスが 404 になっているという変なページのようです。
（ブラウザの開発者ツールで調べました）

open-uri はステータスが 404 だったらエラーにするようで、（軽く見た限りだと）このようなケースには対応できないように見えました。

https://github.com/ruby/ruby/blob/v3_0_0/lib/open-uri.rb#L364

ではどうするか。curl が使える環境なら

html = `curl "#{url}"`

で取得するのが一番手軽だと思います（charset は別途取得する必要がありますが）。
期待する解決法ではないかもしれませんが、open-uri を使わない方法の1つの例ということで挙げてみました。

投稿2021/04/04 21:07

編集2021/04/04 21:09

sonota88

総合スコア43

teruhisashibuya

2021/04/06 12:35

curlを使用したところ、たしかにコンソールににて取得した要素が表示されました。こちらを参考に作業を進めてみたいと思います。この度はご回答ありがとうございました。

行動規範の内容に同意します

User-Agentあるいはその他のヘッダ情報でブラウザ以外からのアクセスを検知して、拒否しているんじゃないでしょうか。

投稿2021/03/14 15:28

otn

総合スコア86316

teruhisashibuya

2021/03/16 15:23

ご回答ありがとうございます。実は1度下記のコードでuser agentの設定を試みてましたが、同じ結果に終わっています。記述ミスなどご指摘があれば、ご指導いただけますと幸いです。よろしくお願い致します。 charset = nil user_agent = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.63 Safari/537.36' begin #html = open(url) do |f| html = open(url, "User-Agent" => user_agent) do |f| charset = f.charset f.read end rescue OpenURI::HTTPError => e puts e end doc = Nokogiri::HTML.parse(html, nil, charset) puts doc

行動規範の内容に同意します

あなたの回答