ruby on railsのmechanizeメソッドでスクレイピングをしたいと考えております。
以下のようなHTMLがあります。
lang
1<table> 2 <tr> 3 <th class="MagPriTab_MagNa">雑誌名</th> 4 <th class="MagPriTab_PubNa">出版社名</th> 5 <th>印刷証明付き発行部数</th> 6 </tr> 7 <tr> 8 <td class="MagDataTab_MagNa"><a href="http://withonline.jp/" target="_blank">with</a></td> 9 <td>講談社</td> 10 <td class="MagDataTab_count">200,000</td> 11 </tr> 12 <tr> 13 <td class="MagDataTab_MagNa"><a href="http://more.shueisha.co.jp" target="_blank">MORE</a></td> 14 <td>集英社</td> 15 <td class="MagDataTab_count">256,667</td> 16 </tr> 17 <tr> 18 <td class="MagDataTab_MagNa"><a href="http://www.shufu.co.jp" target="_blank">ar</a></td> 19 <td>主婦と生活社</td> 20 <td class="MagDataTab_count">121,067</td> 21 </tr> 22 </table>
ここから、
<td class="MagDataTab_count">200,000</td> <td class="MagDataTab_count">256,667</td> <td class="MagDataTab_count">121,067</td>のタグから数字を取り出したいのですが、上手くいきません。
数字自体は取得できるのですが、なぜか数字が連結してしまいます。
スクレイピングのメソッド自体は以下のようなコードを書いています。
lang
1def self.mag_association 2 counts = [] 3 agent = Mechanize.new 4 page = agent.get("http://www.j-magazine.or.jp/magadata/index.php?module=list&action=list&cat1cd=2&cat3cd=19&period_cd=31") 5 circulations = page.search('.MagDataTab') 6 circulations.each do |numbers| 7 circulation = numbers.search('.MagDataTab_count').inner_text 8 magazine = Magazine.new(circulation: circulation) 9 magazine.save 10 end 11 end
ターミナルのコンソールで実行すると以下のように表示されます。
lang
1[23] pry(main)> Scraping.mag_association 2 (0.2ms) BEGIN 3 SQL (1.1ms) INSERT INTO `magazines` (`circulation`, `created_at`, `updated_at`) VALUES ('200,000256,667121,067', '2016-05-09 08:42:18', '2016-05-09 08:42:18') 4
さきほど紹介したHTMLコード
lang
1<td class="MagDataTab_count">200,000</td> 2 <td class="MagDataTab_count">256,667</td> 3<td class="MagDataTab_count">121,067</td>
このタグ内の数字がなぜか連結してしまい、"200,000256,667121,067"と表示されていることが問題点です。
解決策をご教授いただけると幸いです。よろしくお願いします。

回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2016/05/10 03:18