回答率: 85.40%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.40%

トップ CSVに関する質問

Q&A

解決済

1回答

2293閲覧

rubyのnokogiriを用いてクローリングを行う

総合スコア10

0グッド

0クリップ

投稿2016/09/08 02:02

0

0

rubyのnokogriを用いて、Amazonサイトにある本カテゴリーの部分から書籍情報だけをクローリングしたいと考えております。

形としては、

id	title	author	image
0	コンビニ人間	村田 沙耶香	51+px9T8vNL._AC_US200_.jpg
1	陸王	池井戸 潤	515Olc9vuUL._AC_US200_.jpg
2 ... ...

というようにcsvファイルにしたいと考えています。

require 'open-uri'
require 'nokogiri'
require 'csv'

url = 'https://www.amazon.co.jp/s/ref=lp_466284_nr_n_0?fst=as%3Aoff&rh=n%3A465392%2Cn%3A%21465610%2Cn%3A466284%2Cn%3A548206&bbn=466284&ie=UTF8&qid=1470908910&rnid=466284'

charset = nil
html = open(url) do |f|
	charset = f.charset
	f.read
end
 
doc = Nokogiri::HTML.parse(html, nil, charset)

csv = "" 
table = doc.xpath('//table[@class="a-size-base a-color-null s-inline  s-access-title  a-text-normal"]')
table.search('.//a[position()>1]').each do |a|
	arr = Array.new()
	a.search('.//h2').each do |h2|
		arr.push(h2.text)
	end
	csv << arr.to_csv
end

File.open('export2.csv', 'w') do |io|
	io.write csv
end

プログラムはここまで書いてみたんですが、何かしらのエラーが出てしまい
xpathの取得の部分と、csvの部分の書き方があまり分かりません。
また、本カテゴリーの部分のクローリングを実現したいと考えています。

解決策をご教授いただけますと幸いです。
どうぞ宜しくお願いいたします

行動規範の内容に同意します

回答1件

0

ベストアンサー

プログラムはここまで書いてみたんですが、何かしらのエラーが出てしまい

エラーやバグを解決するまでがプログラミングなので、
まずエラー文をじっくり読んで、内容をしっかり把握しましょう。

とくに、クローラー開発はエラー処理がメインです。ネット越しに相手がいて、
相手がサイトやページをいじると即エラーですから、エラーが多い分野です。
Nokogiriがあるからコードは短いですが、エラー対応が大変なんです。

サイトの数だけエラーがあるし、運用期間中ずっとエラー対応が必要なので、
エラー文を読むのも面倒、といった感じでは長い目で見て続きません。
エラーが100回とか出るたびに質問してるとかえって大変になります。

しかも、サイト側にはクローラーはじつは目障りです。
客でもないのに負荷を増やすから。だから意図的に弾く場合があります。

サイト側の規約（Amazon側はAPIを推奨してるはず）や
図書館事件もあるので、トラブルを避けるためには慎重さが必要です。

なので、自力解決して欲しいのですが、でもまあヒントとしましては、
エラー文をエスパーすると、まずSSLのエラーで突っかかってそうです。

で、何とかそれを解決しても、次はたぶん503エラーになる。
こうしたエラーの原因の推測は難しいですが、クローラー運用に大事な能力です。

Rubyによるクローラー開発技法

学習の入口として、Rubyでクローラー開発するなら定番の良書があります。
Ruby、Nokogiri、Amazon、にも触れていますので、お勧めの本です。

投稿2016/09/08 10:52

総合スコア5592

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.40%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ CSVに関する質問

rubyのnokogiriを用いてクローリングを行う

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【はてなを用いた認証機能の終了について】誠に勝手ながら、2024年10月31日をもちましてはてな認証を用いた新規登録・ログイン機能の提供を終了いたします。現在のアカウント認証に、はてなのみをご利用のユーザー様につきましては、下記案内をご確認の上ご対応くださいますよう、どうぞよろしくお願い致します。 https://blog.teratail.com/entry/close-hatena-auth

【ジャック広告の配信について】現在、非ログイン状態のユーザー様に対して一部の地域限定でジャック広告を配信しております。詳細につきましてはteratailブログをご確認ください。 https://blog.teratail.com/entry/jack-ad

過去のお知らせを見る