python3でScrapyの勉強をしようと思い、
いらすとやの特定ページの画像をローカルにダウンロードしようとしています。
その際にサイトトップはクロールし、画像をローカルに保存できたのですが、
特定のカテゴリーは日本語URLの為robots.txtが読み込まれず、要素の取得ができません。
原因はスクレイピングするURLの問題だと考えているのですが、日本語URLをスクレイピングする際に対応する方法が
思いつかず、どなたかご教授いただければと存じます。
スクレイピングできるURL
https://www.irasutoya.com/
スクレイピングできなかったURL
https://www.irasutoya.com/search/label/%E6%96%B0%E7%A4%BE%E4%BC%9A%E4%BA%BA
spiders/init.pyのコード
import scrapy from test2.items import ImageItem class Test2Spider(scrapy.Spider): name = "test2" allowed_domains= "https://www.irasutoya.com/" start_urls = [ 'https://www.irasutoya.com/search/label/新社会人' ] custom_settings = { "DOWNLOAD_DELAY": 1, } def parse(self, response): item = ImageItem() item["image_urls"] = [] for test in response.css('img.boxim'): item["image_urls"].append(response.urljoin(test.css('img::attr(src)').extract_first())) return item
コンソールのエラー内容
2018-04-07 11:10:09 [scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET https://www.irasutoya.com/search/label/%E6%96%B0%E7%A4%BE%E4%BC%9A%E4%BA%BA> 2018-04-07 11:10:10 [scrapy.core.engine] INFO: Closing spider (finished)

回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/04/07 02:27
2018/04/07 03:39