編集履歴

質問編集履歴

追記の表示を追加しました

2020/05/07 10:34

投稿

begenner

スコア80

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -65,7 +65,7 @@
 ```
 ## コード
-### スクレイピングするHTML
+### スクレイピングするHTML(整形)
 - sample.html
 ```html
 <div class="list">
@@ -93,7 +93,7 @@
 ```
-### 修正したコード(Ruby)
+### 追記:修正したコード(Ruby)
 ```ruby
 require 'mechanize'

16 42 1205 192

コードの順番を変更しました

2020/05/07 10:34

投稿

begenner

スコア80

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -93,7 +93,7 @@
 ```
-### 修正したコード
+### 修正したコード(Ruby)
 ```ruby
 require 'mechanize'
@@ -102,22 +102,6 @@
 page = agent.get(url)
 html_infos = page.search('.aaa')
-extracted_datas = []
-html_infos.each do |ele|
-  extracted_datas << ele.inner_text
-end
-```
-### 現状のコード
-- main.rb
-```ruby
-require 'mechanize'
-agent = Mechanize.new
-# sample.html　のコードが含まれるurlから情報を取得
-page = agent.get(url)
-html_infos = page.search('.aaa')
 foo = page.xpath("//div[@class='aaa']//text()")
 bar = page.xpath("//div[@class='aaa']/span[@class="bbb"]//text()")
 extracted_datas = (foo - bar).map{|x| x.text.strip}.select{|x| x!=""}
@@ -138,4 +122,19 @@
 #  "yyy",
 #  "zzz"
 #]
+```
+### 現状のコード
+```ruby
+require 'mechanize'
+agent = Mechanize.new
+# sample.html　のコードが含まれるurlから情報を取得
+page = agent.get(url)
+html_infos = page.search('.aaa')
+extracted_datas = []
+html_infos.each do |ele|
+  extracted_datas << ele.inner_text
+end
 ```

16 42 1205 192

回答を参考にrubyファイルを修正、HTMLを変更、修正。取得される配列を掲載

2020/05/07 10:33

投稿

begenner

スコア80

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,9 +1,12 @@
 現在某サイトを利用してスクレイピングの勉強をしています。
 少しは理解できたと思うのですが、
 下記のHTMLコードから
-- `<div class="aaa">`タグ内のテキスト(3件 - xxx、yyy、zzz)を抽出したい
+- `<div class="aaa">`タグ内のテキスト(3件 - ooopppqqq、yyy、zzz)を抽出したい
 - `<span class="bbb">`タグ内のテキスト(α、β、θ)は抽出したくない
+- 1件目は一番難儀で`α`は不要、`ooo`、aタグ内のテキスト`ppp`、aタグ直後の`qqq`を連結した`ooopppqqq`を取得したい
+- 2、3件目は`yyy`、`zzz`を取得したい
 といった場合のコードの書き方が全くわかりません(m_ _m)
 もしわかる方がいらっしゃればご教授いただきますようよろしくお願いいたします(m_ _m)
@@ -12,17 +15,20 @@
   <ol>
     <li>
       <div class="aaa">
-        <span class="bbb">α</span>xxx
+        <span class="bbb">α</span>
+        ooo<a href="site_url">ppp</a>qqq
       </div>
     </li>
     <li>
       <div class="aaa">
-        <span class="bbb">β</span>yyy
+        <span class="bbb">β</span>
+        yyy
       </div>
     </li>
     <li>
       <div class="aaa">
-        <span class="bbb">θ</span>zzz
+        <span class="bbb">θ</span>
+        zzz
       </div>
     </li>
   </ol>
@@ -37,49 +43,99 @@
 |Mechanize|2.7.6|
 ### 期待する動作
-- `<div class="aaa">`タグ内のテキスト(3件 - xxx、yyy、zzz)を抽出したい
+- `<div class="aaa">`タグ内のテキスト(3件 - ooopppqqq、yyy、zzz)を抽出したい
 - `<span class="bbb">`タグ内のテキスト(α、β、θ)は抽出したくない
-### 現状のコード
+- 1件目は一番難儀で`α`は不要、`ooo`、aタグ内のテキスト`ppp`、aタグ直後の`qqq`を連結した`ooopppqqq`を取得したい
-- main.rb
+- 2、3件目は`yyy`、`zzz`を取得したい
 ```ruby
-require 'mechanize'
-agent = Mechanize.new
+# 現状だと下記のようにデータが取得されます
+#[
-# sample.html　のコードが含まれるurlから情報を取得
+#  "ooo",
+#  "qqq",
+#  "yyy",
-page = agent.get(url)
+#  "zzz"
-html_infos = page.search('.aaa')
+#]
-extracted_datas = []
-html_infos.each do |ele|
-  extracted_datas << ele.inner_text
-end
-# 現状だと下記のようにデータが抽出されます
+# 理想は下記のようにデータが取得されること
-# α xxx
+#[
+#  "ooopppqqq",
-# β yyy
+#  "yyy",
-# θ zzz
+#  "zzz"
+#]
 ```
+## コード
+### スクレイピングするHTML
 - sample.html
 ```html
 <div class="list">
   <ol>
     <li>
       <div class="aaa">
-        <span class="bbb">α</span>xxx
+        <span class="bbb">α</span>
+        ooo<a href="site_url">ppp</a>qqq
       </div>
     </li>
     <li>
       <div class="aaa">
-        <span class="bbb">β</span>yyy
+        <span class="bbb">β</span>
+        yyy
       </div>
     </li>
     <li>
       <div class="aaa">
-        <span class="bbb">θ</span>zzz
+        <span class="bbb">θ</span>
+        zzz
       </div>
     </li>
   </ol>
 </div>
+```
+### 修正したコード
+```ruby
+require 'mechanize'
+agent = Mechanize.new
+# sample.html　のコードが含まれるurlから情報を取得
+page = agent.get(url)
+html_infos = page.search('.aaa')
+extracted_datas = []
+html_infos.each do |ele|
+  extracted_datas << ele.inner_text
+end
+```
+### 現状のコード
+- main.rb
+```ruby
+require 'mechanize'
+agent = Mechanize.new
+# sample.html　のコードが含まれるurlから情報を取得
+page = agent.get(url)
+html_infos = page.search('.aaa')
+foo = page.xpath("//div[@class='aaa']//text()")
+bar = page.xpath("//div[@class='aaa']/span[@class="bbb"]//text()")
+extracted_datas = (foo - bar).map{|x| x.text.strip}.select{|x| x!=""}
+p extracted_datas
+# 現状だと下記のようにデータが取得されます
+#[
+#  "ooo",
+#  "qqq",
+#  "yyy",
+#  "zzz"
+#]
+# 理想は下記のようにデータが取得されること
+#[
+#  "ooopppqqq",
+#  "yyy",
+#  "zzz"
+#]
 ```

16 42 1205 192

質問に関するタグを追加しました

2020/05/07 10:32

投稿

begenner

スコア80

title CHANGED Viewed

File without changes

body CHANGED Viewed

File without changes

16 42 1205 192