最適なスクレイピング学習方法を教えてください

Question

許可をもらった複数サイト内の全コンテンツを対象に定期的にクロールしてソースを取得するクローラーを作ろうと思っています。（JavaScriptのリンクも読み取る仕様で）

最低でも100サイト✕1000ページくらいを巡回する事ができるようなものを作ろうと思うのですが、どのような言語？を学習すればよいでしょうか？

ネットで色々調べたところ、
VPS（さくらVPSが良さそう？）を契約して
python、Seleniumを覚えれば
なんとかなるのかな？？？って感じがしているのですが、まったくもって確証がもてません。


当方、HTML、CSS、PHP、Javascriptくらいしか分からず、サーバ周りも詳しくありません。


上記用途のような場合、どのような学習方法が最適でしょうか。
どの言語が良い。どのページが参考になる。どの本が良い等、何でも良いので情報を教えていただければ幸いです。
よろしくお願いいたしますm(_ _)m

Accepted Answer

言語でいうとRubyが良いかなと思います。
Ruby以外の言語のクローラー製作の経験がないため他言語との比較はできませんが、Rubyには問題なく使えるフレームワークが充分揃っているので、最終的に必要なクローラーが完成する道筋があると思います。
参考資料としては**Rubyによるクローラー開発技法**っていう赤い本が勉強になりました。まだ載っている情報はそれほど古くないと思います。

Answer

私は簡単なイラスト収集クローラしか作ったことがありません。
恐らくPythonだけだとJavaScriptが扱えないという理由で
Seleniumが必要なことになっているのだと私は思います。

言語はお好きなもので良いと思います。

サイト毎に専用のクローラを作ることになると思います。

Rubyならcapybara&PhantomJS
C#ならHtmlAgilityPack&ScrapySharpなどが考えられます。

参考
[Rubyでスクレイピングしてみました。](http://qiita.com/rinkun/items/cebd8e25aec13b6bb933)
[C#のScrapySharpでスクレイピングする](http://qiita.com/katz/items/718fdde764a78496e933)