Mechanizeのlink_withメソッドについて

Question

```lang-ruby require 'mechanize' agent = Mechanize.new page = agent.get('http://hoge.com/') regex = / /$1/).click hai = link.image_with(src: /jpg\Z/).fetch.save_as('img.jpg') ``` これはhttp://example.com/というサイトにある画像を保存するためのプログラムですしかしこのプログラムを実行しても以下のエラーが出ます > undefined method `fetch' for nil:NilClass (NoMethodError) これはプログラム中の以下の部分の書き方が誤っているからだと思います ```lang-ruby link = page.link_with(:href => /$1/).click ``` この/$1/に正規表現ではなく、実際にあるURLを書き込むとエラーは出ませんまた、他のプログラムで試したので正規表現自体が間違っている、ということもないと思います link_withメソッドのなかで以上のような、正規表現を実現するためにはどうすれば良いのでしょうか教えてください ```lang-ruby require 'mechanize' agent = Mechanize.new page = agent.get('http://example.com/') regex = / /$1/).click img = link.image_with(src: /jpg\Z/).fetch.save_as('img.jpg') ``` これはhttp://example.com/というサイトにある画像を保存するためのプログラムですしかしこのプログラムを実行しても以下のエラーが出ます > undefined method `fetch' for nil:NilClass (NoMethodError) これはプログラム中の以下の部分の書き方が誤っているからだと思います ```lang-ruby link = page.link_with(:href => /$1/).click ``` この/$1/に正規表現ではなく、実際にあるURLを書き込むとエラーは出ませんまた、他のプログラムで試したので正規表現自体が間違っている、ということもないと思います link_withメソッドのなかで以上のような、正規表現を実現するためにはどうすれば良いのでしょうか教えてください追記これはhttp://example.com/というサイトにある画像を保存するためのプロクラムです http://example.com/には以下のソースがあり、そのaタグのなかをlink_withメソッドでクリックしたいですこのとき、自分の必要とするリンク先は任意のURLで、次に来るHTMLタグがからはじまっているものなのでそれを利用した正規表現を書きます >

プログラム中に記述した正規表現では以下にマッチしますが$1ではhttp://hoge.com/randomstringにマッチします(おそらくこの辺が自分でよくわかっていません) > "http://random.com/randomstring").click img = link.image_with(src: /jpg\Z/).fetch.save_as('img.jpg') ``` 以下のプログラムの場合は正規表現がうまくマッチせず使えません ```lang-ruby require 'mechanize' agent = Mechanize.new page = agent.get('http://exmaple.com/') link = page.link_with(:href => /

Accepted Answer

こんにちは。追記を拝読しての回答となります。追記から、実現したいこととしては、 --- (1)指定されたURLのページに記述されている、ある条件を満たすURLをオリジナル画像が表示されるページへのリンクであるとして、そのリンク先からオリジナルの画像を手元のPCにダウンロードして保存したい。 (2)上記の(1)の「ある条件」とは、正規表現のリンクで囲まれた部分が要素なので、この要素がダウンロードしたい画像のサムネイルになっているようなページなのかなと思ったからです。このサムネイルからオリジ画像だけがあるページにいって、そこから画像データを取り込みたいという状況と想定しました。上記の想定のもとに、挙げられているコードの問題はどこかを検討しますと、 link = page.link_with(:href => / / /http:\/\/exmaple\.com\/images\/[0-9]{5}\.html/).click とすればよい、ということになるかと思います。 **・・・なのですが、**より工夫しなければならないのは、正規表現を囲んでいるのhref属性の値である。ということ**しか**分からない場合です。この場合は、まず、に囲まれている、（つまり親要素がであるような）要素を検索して、そのようながあれば、それの親であるのhrefを取得する、というような処理が必要になると思いました。・・・という考えのもと、私は、Mechanizeは使ったことないのですがちょっと調べたところ、pageのsearchメソッドにXPathを渡して、以下のような感じでいけるのではないかなと思いました。 ```lang-ruby require 'mechanize' agent = Mechanize.new page = agent.get('http://exmaple.com/') thumbnails = page.search(‘//a/img’) if thumbnails && thumbnails.length > 0 link_to_original_image = thumbnails[0].parent page_of_original_image = agent.get(link_to_original_image[:href]) img = link.image_with(src: /jpg\Z/).fetch.save_as('img.jpg') end ``` 上記のコードをテンプレートにして、ちょっと自分の勉強がてら、映画「イミテーションゲーム」のまとめページから、一番上の画像を取ってくるコードを書いてみました。 ```lang-ruby # coding: utf-8 require 'mechanize' agent = Mechanize.new page = agent.get('http://matome.naver.jp/odai/2141968391848272501') thumbnails = page.search('//a/img[@class="MTMItemThumb"]') if thumbnails && thumbnails.length > 0 link_to_original_image = thumbnails[0].parent puts "href:[" + link_to_original_image[:href] + "]" page_of_original_image = agent.get(link_to_original_image[:href]) img = page_of_original_image.image_with(src: /jpg\Z/).fetch.save_as('img.jpg') end ``` 上記を実行すると、まとめの一番上にある画像のオリジ画像がローカルに img.jpgとしてダウンロードできました。蛇足ですが、rubyでこういったスクレイピングを色々やりたいときには以下の本が詳しいです。 [Rubyによるクローラー開発技法](http://www.amazon.co.jp/dp/4797380357) 以上、参考になれば幸いです。 --- ※以下追記です。 OTNさんのご回答のコードにあるように、XPathでは "//a/img/.." の末尾のように、".."を使えるので、私が最後に挙げたコードは以下のように少し短くできます。 ```lang-ruby # coding: utf-8 require 'mechanize' agent = Mechanize.new page = agent.get('http://matome.naver.jp/odai/2141968391848272501') links = page.search('//a/img[@class="MTMItemThumb"]/..') if links && links.length > 0 puts "href:[" + links[0][:href] + "]" #確認のための表示 page_of_original_image = agent.get(links[0][:href]) img = page_of_original_image.image_with(src: /jpg\Z/).fetch.save_as('img.jpg') end ``` 望ましい動きをしてくれるスクレイピングのプログラムを書けるようになるためには、今回の　$1 の使い方含めて正規表現を使いこなせるようになることに加えて、 XPathも自分のものにしておくとよいと思います。以上です。

Answer

> そのためlink_withメソッドの正規表現に$1を渡せばうまくいくかなと思ったのですが、やはりだめでした 
正規表現自体の知識はおありのようですが、それをRubyの中でどう使えるのかについての知識が不足しています。`$1`についての説明は前回の回答に書いた通り。

どうやるかの1つの案です。
該当aタグや、imgタグは複数あるのでは？と思ったので、そういう前提。

```lang-Ruby
require "mechanize"

agent = Mechanize.new
page = agent.get("http://exmaple.com/")
n=0
page.root.xpath("//a/img/..").each do |a|
  page = agent.get(a["href"])
  if page.respond_to? :images_with
    page.images_with(src: /jpg\Z/).each do |img|
      img.fetch.save_as("img#{n+=1}.jpg")
    end
  end
end
```

Answer

`$1`というのは、正規表現のマッチを行った場合に、最初の括弧に囲まれた部分を指します。
このコードだと、`$1`登場以前に正規表現のマッチを行っていないので、`nil`のはずです。

コードを見ても何をしたいのか分からないので、具体的に「こう直せば良い」というアドバイスが出来ません。

Mechanizeのlink_withメソッドについて

追記から、実現したいこととしては、

にマッチする行のhref属性の値として取得する、１個目の丸括弧 ( ) で
囲まれた部分である。

以上、参考になれば幸いです。

関連した質問

追記から、実現したいこととしては、

にマッチする行のhref属性の値として取得する、１個目の丸括弧 ( ) で 囲まれた部分である。

以上、参考になれば幸いです。

関連した質問

にマッチする行のhref属性の値として取得する、１個目の丸括弧 ( ) で
囲まれた部分である。