Rubyでスクレイピング　HTMLの範囲を指定したい

前提・実現したいこと

下記のHTMLは例なのですが、下記のようなHTMLのサイトでRubyを使ってスクレイピングをしたいと考えています。
またその際にこのコードの中でも、fuga1~fuga5までの単語だけをスクレイピングしたいです。

試したこととして、多くのサイトに書いてあるように、

△△.xpath('//div[@class="container"]').css('◯◯')

を使いました。
しかし、fuga1~fuga5はセレクタを持たないので、〇〇の部分に何を入れれば良いかわかりませんでした。
また.cssを使わずにスクレイピングすると、containerクラス全体がスクレイピングされてしまいます。

該当のソースコード

HTML
1<div class="container">
2  <br>
3  申し込みはこちらから。
4  <br>
5  hogehoge
6  <br>
7  hogehoge
8  <br>
9  hogehoge
10  <br>
11  fuga1    <!-- ここから、 -->
12  <br>
13  fuga2    
14  <br>
15  fuga3
16  <br>
17  fuga4
18  <br>
19  fuga5    <!-- ここまでをスクレイピングしたい！ -->
20  <br>
21</div>

nokogiriインストール済み
nokogiri、open-uriライブラリもインポート済み
ruby 2.6.5

知識のある方、ぜひよろしくお願いします（ ; ; ）

行動規範の内容に同意します

回答1件

ベストアンサー

Ruby
1xxx.xpath('//div[@class="container"]/text()').map{|x|x.text.strip}

でテキストノードの配列が取れるので、添え字を指定して取得ですかね。

投稿2020/11/22 14:06

otn

総合スコア85778

manami0419

2020/11/22 14:34

ご回答ありがとうございます！上記のコードの/text()のところに添字を入れて試してみたところ、下記のようなエラーが出ました（ ; ; ） ERROR: Missing closing curly brace: //div[@class="rich-text"]/text(1) (Nokogiri::XML::XPath::SyntaxError) また、添字を何も入れずに実行してみると、containerクラスのテキストノードの部分だけ取得することができました。何が問題なのでしょうか？

manami0419

2020/11/22 14:46

説明を追加いたします。添字を何も入れずに実行した際なのですが、上記の例で言うと、fuga1~fuga5だけでなく、「申し込みはこちら」や、hogehogeまで取得している状態ですm(._.)m

otn

2020/11/22 15:15 編集

> /text(1) そんなところに添え字は入れません。 > 添字を何も入れずに実行した際なのですが、上記の例で言うと、fuga1~fuga5だけでなく、「申し込みはこちら」や、hogehogeまで取得している状態ですm(._.)m そりゃそうです。 > でテキストノードの配列が取れるので添え字を指定して取得ですかね。は、HTMLにコメントが無いとすれば、 ["", "申し込みはこちらから。", "hogehoge", "hogehoge", "hogehoge", "fuga1", "fuga2", "fuga3", "fuga4", "fuga5", ""] という配列になるので、その配列に添え字を指定するという意味なのですが。添え字は、[5..9]でしょうか。

otn

2020/11/22 15:13

XPathだけで添え字を指定すると、 xpath('//div[@class="container"]/text()[position()>5 and position()<11]').map{|x|x.text.strip} と、ちょっとまだるっこしい感じですが、これでもいいです。

manami0419

2020/11/22 15:32

いろいろ間違えていてすみません（ ; ; ）今上記のコードで試してみたところ、欲しい値だけ取得できました！ありがとうございます！

行動規範の内容に同意します