Scrapyで日本語URLをスクレイピングしようとすると、robots.txtが読み込まれない

python3でScrapyの勉強をしようと思い、
いらすとやの特定ページの画像をローカルにダウンロードしようとしています。

その際にサイトトップはクロールし、画像をローカルに保存できたのですが、
特定のカテゴリーは日本語URLの為robots.txtが読み込まれず、要素の取得ができません。

原因はスクレイピングするURLの問題だと考えているのですが、日本語URLをスクレイピングする際に対応する方法が
思いつかず、どなたかご教授いただければと存じます。

スクレイピングできるURL
https://www.irasutoya.com/

スクレイピングできなかったURL
https://www.irasutoya.com/search/label/%E6%96%B0%E7%A4%BE%E4%BC%9A%E4%BA%BA

spiders/init.pyのコード

import scrapy

from test2.items import ImageItem
class Test2Spider(scrapy.Spider):
    name = "test2"
    allowed_domains= "https://www.irasutoya.com/"
    start_urls = [
        'https://www.irasutoya.com/search/label/新社会人'
    ]

    custom_settings = {
        "DOWNLOAD_DELAY": 1,
    }

    def parse(self, response):

        item = ImageItem()
        item["image_urls"] = []
        for test in response.css('img.boxim'):
            item["image_urls"].append(response.urljoin(test.css('img::attr(src)').extract_first()))
        return item

コンソールのエラー内容

2018-04-07 11:10:09 [scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET https://www.irasutoya.com/search/label/%E6%96%B0%E7%A4%BE%E4%BC%9A%E4%BA%BA>

2018-04-07 11:10:10 [scrapy.core.engine] INFO: Closing spider (finished)

行動規範の内容に同意します

回答2件

ベストアンサー

エラーが「Forbidden by robots.txt」なので、いらすとやのrobots.txtがカテゴリページのクロールを禁止しているのでは？　と思い、いらすとやのrobots.txtを確認したところ実際にDisallow: /searchの記述がありました。
以下のページの手順でrobots.txtを無視する設定を追加してください。
python - getting Forbidden by robots.txt: scrapy - Stack Overflow

投稿2018/04/07 02:24