Mechanizeで抽出するデータを細かく指定したい

Question

現在某サイトを利用してスクレイピングの勉強をしています。少しは理解できたと思うのですが、下記のHTMLコードから - `

`タグ内のテキスト(3件 - ooopppqqq、yyy、zzz)を抽出したい - ``タグ内のテキスト(α、β、θ)は抽出したくない - 1件目は一番難儀で`α`は不要、`ooo`、aタグ内のテキスト`ppp`、aタグ直後の`qqq`を連結した`ooopppqqq`を取得したい - 2、3件目は`yyy`、`zzz`を取得したいといった場合のコードの書き方が全くわかりません(m_ _m) もしわかる方がいらっしゃればご教授いただきますようよろしくお願いいたします(m_ _m) ```html

α ooopppqqq
β yyy
θ zzz

``` ### 動作環境 |Ruby|2.5.7| |:--:|:--:| |Mechanize|2.7.6| ### 期待する動作 - `

`タグ内のテキスト(3件 - ooopppqqq、yyy、zzz)を抽出したい - ``タグ内のテキスト(α、β、θ)は抽出したくない - 1件目は一番難儀で`α`は不要、`ooo`、aタグ内のテキスト`ppp`、aタグ直後の`qqq`を連結した`ooopppqqq`を取得したい - 2、3件目は`yyy`、`zzz`を取得したい ```ruby # 現状だと下記のようにデータが取得されます #[ # "ooo", # "qqq", # "yyy", # "zzz" #] # 理想は下記のようにデータが取得されること #[ # "ooopppqqq", # "yyy", # "zzz" #] ``` ## コード ### スクレイピングするHTML(整形) - sample.html ```html

α ooopppqqq
β yyy
θ zzz

``` ### 追記:修正したコード(Ruby) ```ruby require 'mechanize' agent = Mechanize.new # sample.html　のコードが含まれるurlから情報を取得 page = agent.get(url) html_infos = page.search('.aaa') foo = page.xpath("//div[@class='aaa']//text()") bar = page.xpath("//div[@class='aaa']/span[@class="bbb"]//text()") extracted_datas = (foo - bar).map{|x| x.text.strip}.select{|x| x!=""} p extracted_datas # 現状だと下記のようにデータが取得されます #[ # "ooo", # "qqq", # "yyy", # "zzz" #] # 理想は下記のようにデータが取得されること #[ # "ooopppqqq", # "yyy", # "zzz" #] ``` ### 現状のコード ```ruby require 'mechanize' agent = Mechanize.new # sample.html　のコードが含まれるurlから情報を取得 page = agent.get(url) html_infos = page.search('.aaa') extracted_datas = [] html_infos.each do |ele| extracted_datas << ele.inner_text end ```

Accepted Answer

このHTMLだと、`

`直下の(空白で無い)テキストノードを取れば良いので、 ```Ruby extracted_datas = page.xpath("//div[@class='aaa']/text()").map{|x| x.text.strip}.select{|x| x!=""} ``` 子ノードがある場合も、それを含めるのか含めないのかを明確にすれば、なんとかなります。 #追記直下でないテキストノードも対象とする場合。 ```Ruby # div.aaa の中の全テキストノードを取得 foo = page.xpath("//div[@class='aaa']//text()") # span.bbb の中の全テキストノードを取得 bar = page.xpath("//div[@class='aaa']/span[@class='bbb']//text()") # その差を求める extracted_datas = (foo-bar).map{|x| x.text.strip}.select{|x| x!=""} ``` 1つの`div.aaa`ごとに文字列をつなげたいとかだとちょっと面倒だと思います。 #追記2 > 1つの`div.aaa`ごとに文字列をつなげたいとかだとちょっと面倒だと思います。そうでも無かった。 ```Ruby extracted_datas = page.xpath("//div[@class='aaa']").map do |div| foo = div.xpath(".//text()") bar = div.xpath(".//span[@class='bbb']//text()") (foo-bar).map{|x| x.text.strip}.join end ```

動作環境

期待する動作

コード

スクレイピングするHTML(整形)

追記:修正したコード(Ruby)

現状のコード

関連した質問