Mechanizeで抽出するデータを細かく指定したい

現在某サイトを利用してスクレイピングの勉強をしています。
少しは理解できたと思うのですが、
下記のHTMLコードから

<div class="aaa">タグ内のテキスト(3件 - ooopppqqq、yyy、zzz)を抽出したい
<span class="bbb">タグ内のテキスト(α、β、θ)は抽出したくない
1件目は一番難儀でαは不要、ooo、aタグ内のテキストppp、aタグ直後のqqqを連結したooopppqqqを取得したい
2、3件目はyyy、zzzを取得したい

といった場合のコードの書き方が全くわかりません(m_ m)
もしわかる方がいらっしゃればご教授いただきますようよろしくお願いいたします(m _m)

html
1<div class="list">
2  <ol>
3    <li>
4      <div class="aaa">
5        <span class="bbb">α</span>
6        ooo<a href="site_url">ppp</a>qqq
7      </div>
8    </li>
9    <li>
10      <div class="aaa">
11        <span class="bbb">β</span>
12        yyy
13      </div>
14    </li>
15    <li>
16      <div class="aaa">
17        <span class="bbb">θ</span>
18        zzz
19      </div>
20    </li>
21  </ol>
22</div>

動作環境

Ruby	2.5.7
Mechanize	2.7.6

期待する動作

<div class="aaa">タグ内のテキスト(3件 - ooopppqqq、yyy、zzz)を抽出したい
<span class="bbb">タグ内のテキスト(α、β、θ)は抽出したくない
1件目は一番難儀でαは不要、ooo、aタグ内のテキストppp、aタグ直後のqqqを連結したooopppqqqを取得したい
2、3件目はyyy、zzzを取得したい

ruby
1# 現状だと下記のようにデータが取得されます
2#[
3#  "ooo",
4#  "qqq",
5#  "yyy",
6#  "zzz"
7#]
8
9# 理想は下記のようにデータが取得されること
10#[
11#  "ooopppqqq",
12#  "yyy",
13#  "zzz"
14#]

コード

スクレイピングするHTML(整形)

sample.html

html
1<div class="list">
2  <ol>
3    <li>
4      <div class="aaa">
5        <span class="bbb">α</span>
6        ooo<a href="site_url">ppp</a>qqq
7      </div>
8    </li>
9    <li>
10      <div class="aaa">
11        <span class="bbb">β</span>
12        yyy
13      </div>
14    </li>
15    <li>
16      <div class="aaa">
17        <span class="bbb">θ</span>
18        zzz
19      </div>
20    </li>
21  </ol>
22</div>

追記:修正したコード(Ruby)

ruby
1require 'mechanize'
2   
3agent = Mechanize.new
4# sample.html　のコードが含まれるurlから情報を取得
5page = agent.get(url)
6html_infos = page.search('.aaa')
7
8foo = page.xpath("//div[@class='aaa']//text()")
9bar = page.xpath("//div[@class='aaa']/span[@class="bbb"]//text()")
10extracted_datas = (foo - bar).map{|x| x.text.strip}.select{|x| x!=""}
11
12p extracted_datas
13
14# 現状だと下記のようにデータが取得されます
15#[
16#  "ooo",
17#  "qqq",
18#  "yyy",
19#  "zzz"
20#]
21
22# 理想は下記のようにデータが取得されること
23#[
24#  "ooopppqqq",
25#  "yyy",
26#  "zzz"
27#]

現状のコード

ruby
1require 'mechanize'
2   
3agent = Mechanize.new
4# sample.html　のコードが含まれるurlから情報を取得
5page = agent.get(url)
6html_infos = page.search('.aaa')
7
8extracted_datas = []
9html_infos.each do |ele|
10  extracted_datas << ele.inner_text
11end

行動規範の内容に同意します

回答1件

ベストアンサー

このHTMLだと、<div class="aaa">直下の(空白で無い)テキストノードを取れば良いので、

Ruby
1extracted_datas  = 
2  page.xpath("//div[@class='aaa']/text()").map{|x| x.text.strip}.select{|x| x!=""}

子ノードがある場合も、それを含めるのか含めないのかを明確にすれば、なんとかなります。

#追記
直下でないテキストノードも対象とする場合。

Ruby
1# div.aaa の中の全テキストノードを取得
2foo = page.xpath("//div[@class='aaa']//text()")
3# span.bbb の中の全テキストノードを取得
4bar = page.xpath("//div[@class='aaa']/span[@class='bbb']//text()")
5# その差を求める
6extracted_datas  = 
7   (foo-bar).map{|x| x.text.strip}.select{|x| x!=""}

1つのdiv.aaaごとに文字列をつなげたいとかだとちょっと面倒だと思います。

#追記2

1つのdiv.aaaごとに文字列をつなげたいとかだとちょっと面倒だと思います。

そうでも無かった。

Ruby
1extracted_datas  = 
2page.xpath("//div[@class='aaa']").map do |div|
3    foo = div.xpath(".//text()")
4    bar = div.xpath(".//span[@class='bbb']//text()")
5    (foo-bar).map{|x| x.text.strip}.join
6end

投稿2020/05/06 23:12

編集2020/05/07 11:40

otn

総合スコア85901

begenner

2020/05/07 10:36 編集

期待したとおりの値が取得できました。ありがとうございます。ただ私の記述漏れがあり、上記のHTMLコードの中にaタグが記述されているのを見落としていたため、配列として取得したデータが、1レコード分のデータが分離して2レコード分になってしまいました。 aタグの中のテキストも必要な状況です。お手数ですが、上記の回答をどのようにすればいいか教えていただけると幸いです。よろしくお願いします(m_ _m) aタグ入りのコードは下記の通りです。 <div class="aaa"> <span class="bbb">α</span>xxx<a href="site_url">あいう</a>xxxx </div>

begenner

2020/05/07 10:39

回答いただいた内容を参考に修正してみましたが、結果は変わりませんでした(m_ _m) 投稿内容に追記しましたので、もしみていただけるならよろしくお願いします(m_ _m)