回答編集履歴

サンプルコード修正

2015/05/31 08:11

投稿

スコア9058

answer CHANGED Viewed

@@ -95,7 +95,7 @@
 thumbnails = page.search(‘//a/img’)
 if thumbnails && thumbnails.length > 0
-  link_to_original_image = thumbnail.parent
+  link_to_original_image = thumbnails[0].parent
   page_of_original_image = agent.get(link_to_original_image[:href])
   img = link.image_with(src: /jpg\Z/).fetch.save_as('img.jpg')
 end

テキスト追加

2015/05/31 08:11

投稿

スコア9058

answer CHANGED Viewed

@@ -130,4 +130,34 @@
 [Rubyによるクローラー開発技法](http://www.amazon.co.jp/dp/4797380357)
-以上、参考になれば幸いです。
+以上、参考になれば幸いです。
+---
+※以下追記です。
+OTNさんのご回答のコードにあるように、XPathでは
+"//a/img/.."
+の末尾のように、".."を使えるので、私が最後に挙げたコードは
+以下のように少し短くできます。
+```lang-ruby
+# coding: utf-8
+require 'mechanize'
+agent = Mechanize.new
+page = agent.get('http://matome.naver.jp/odai/2141968391848272501')
+links = page.search('//a/img[@class="MTMItemThumb"]/..')
+if links && links.length > 0
+  puts "href:[" + links[0][:href]  + "]"  #確認のための表示
+  page_of_original_image = agent.get(links[0][:href])
+  img = page_of_original_image.image_with(src: /jpg\Z/).fetch.save_as('img.jpg')
+end
+```
+望ましい動きをしてくれるスクレイピングのプログラムを書けるようになるためには、
+今回の　$1 の使い方含めて正規表現を使いこなせるようになることに加えて、
+XPathも自分のものにしておくとよいと思います。
+以上です。

テキスト修正

2015/05/31 04:33

投稿

スコア9058

answer CHANGED Viewed

@@ -19,7 +19,7 @@
 というものであると把握しました。（違っていたら、ご指摘ください。）
-また、上記の要件で「オリジナル画像」という言い方を
+また、上記の要件(1)で「オリジナル画像」という言い方を
 している理由は、上記の(2)の正規表現が
 <a href="([^"]+)"><img src

テキスト修正

2015/05/31 03:56

投稿

スコア9058

answer CHANGED Viewed

@@ -19,14 +19,17 @@
 というものであると把握しました。（違っていたら、ご指摘ください。）
+また、上記の要件で「オリジナル画像」という言い方を
-また、上記の(2)の正規表現が
+している理由は、上記の(2)の正規表現が
 <a href="([^"]+)"><img src
 となっていて、<a href="オリジの画像があるページのURL">の
-リンクで囲まれた部分が<img>要素なので、この<img>要素は
+リンクで囲まれた部分が<img>要素なので、この<img>要素が
-ダウンロードしたい画像のサムネイルになっているようなページを
+ダウンロードしたい画像のサムネイルになっているようなページなのかな
-想定しました。
+と思ったからです。
+このサムネイルからオリジ画像だけがあるページにいって、そこから
+画像データを取り込みたいという状況と想定しました。
 上記の想定のもとに、挙げられているコードの問題はどこかを検討しますと、