スクレイピングできるサイトとできないサイトがある

Question

スクレイピングをできるサイトとできないサイトがあります。
例えばヤフーの記事一覧を取得するなら、
１、記事一覧の一番上の記事を検証し、css(xpath)を抜き出す
２、記事一覧の２番目の記事を検証し、css(xpath)を抜き出す
３、#topicsfb > div.topicsindex > ul.emphasis > li:nth-child(1) > a　と#topicsfb > div.topicsindex > ul.emphasis > li:nth-child(1) > a
が出てきたとすると、共通部分だけを抜きだし、くり返し処理する。
つまり、この場合だと
nth-child(記事の順番)のところを抜き出し　#topicsfb > div.topicsindex > ul.emphasis > li > aとする。（以下、実際のコード）

```ここに言語を入力
require "open-uri"
require "nokogiri"

url = "https://www.yahoo.co.jp/"

user_agent = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.63 Safari/537.36'
charset = nil
html = open(url, "User-Agent" => user_agent) do |f|
  charset = f.charset
  f.read
end
      
doc = Nokogiri::HTML.parse(html, nil, charset)
 doc.css('#topicsfb > div.topicsindex > ul.emphasis > li > a').each do |node|
   puts node.text
 end
```
この場合はうまく行ったのですが、
同様のやり方で、やってみるとできないサイトがあります。
（このサイトの記事は、#post-9999 > div > header > h2 > a 、#post-9998 > div > header > h2 > aなど、数字の部分が記事によってことなっていたため、#post> div > header > h2 > aとした。このサイトはこのやり方ではできませんでした。）

```ここに言語を入力
      
doc = Nokogiri::HTML.parse(html, nil, charset)

 doc.css('#post > div > header > h2 > a').each do |node|
   puts node.text
 end
```
この二つのサイトでは何がちがうのでしょうか？
もしくは、私のやり方に不備があるのでしょうか？

Accepted Answer

プログラムは自分が書いた通りにしか動きません。上手く行かないのは基本的に自分のやり方が間違っていると思ってください。 nokogiriの前にスタイルシートの理解が不足しているように思います。 `#post`と`#post-9999`はまったく違うので、一致するはずがありませんよね？いきなり全部やろうとせずに１つずつやってみると良いです。まずは、doc.css('#post') でどうなるか試そうと考えるわけです。 p doc.css('#post') を実行すると、id="post"の要素しかヒットしない事が分かるはずです。この時点で、このアプローチ＝やり方が間違っている事が分かります。 cssでは正規表現は使えません。しかし、これはrubyなのでうまくcssの指定方法とrubyの機能を組み合わせばいいのです。以下に例を示します。例えば、こういう記事のdivがあったとして、まとめてループで処理したい場合、さきほどの説明で分かるように異なるIDをcssの指定では直接取れません。 ```html

...

``` そこで、まずはdiv全部を取得してループで回しながら、idがpost-数字にマッチするかどうかチェックしてマッチしないものはスキップするという風にします。 ```ruby require 'nokogiri' html =< テスト

ダミー

id数字なし

記事1

記事2

記事3

HTML doc = Nokogiri::HTML.parse(html) doc.css('div').each do |div| unless div.attributes.key?('id') && div.attributes['id'].value =~ /\Apost-([0-9]+)\z/ next end puts div.css('h2').text end ``` これを実行すると、このように出力されます。 ``` 記事1 記事2 記事3 ``` このようにスクレイピングはパズルのように考えて工夫する事が必要です。

Answer

```Ruby require 'nokogiri' html = <<-EOS テスト

ダミー

id数字なし

関連した質問