PythonのScrapyで画像URLのみを取得する方法が知りたい

ガリガリ君のHPにある画像のsrc属性（絶対URL）を取得するために、以下のコードを書いています。

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor


# ガリガリ君
class AkagiSpider(CrawlSpider):
    name = 'akagi'
    allowed_domains = ['www.akagi.com']
    start_urls = (
        'https://www.akagi.com/products/garigari/soda_stick.html',
        'https://www.akagi.com/products/gatsun/mikan_stick.html',
        )

    rules = (

        # 辿ってほしいリンクの条件(ルール)を指定する
        Rule(LinkExtractor(allow=r'/garigari/.+$'), callback='parse_ice'),

        Rule(LinkExtractor(allow=r'/gatsun/.+$'), callback='parse_ice'),
        
        )

    def parse_ice(self, response):

        for image_urls in response.css('article .photo figure img::attr("src")').extract():
            image_url = response.urljoin(image_urls)

        yield{
            # 商品名の要素h1の中には<span>が含まれているため、.xpath('string()')でh1以下のすべてのテキストを取得
            'item_name': response.css('#contents article h1').xpath('string()').extract_first().strip(),
            'image': scrapy.Request(image_url),
            'price': response.css('.list_table tr td').xpath('string()').re(r'.+円'),
            'amount': response.css('.list_table tr td').xpath('string()').re(r'.+ml'),
            'maker': '赤城乳業',
        }

画像の絶対URLは取得できるのですが、取得結果のURLに余計な文字列？が入ってしまいます。以下のとおりです。

{'item_name': '大人なガリガリ君贅沢いちご（棒）', 'image': <GET https://www.akagi.com/content/images/products/200gif/otonagari_strawberry.gif>, 'price': ['100円'], 'amount': ['100ml'], 'maker': '赤城乳業'}
2018-06-03 10:25:29 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.akagi.com/products/garigari/cola_stick.html>
{'item_name': 'ガリガリ君コーラ（棒）', 'image': <GET https://www.akagi.com/content/images/products/200gif/gari_cola_stick.gif>, 'price': ['70円'], 'amount': ['110ml'], 'maker': '赤城乳業'}

ご覧のとおり、'image' の値の先頭にGETが含まれてしまい、タグ<>も取得してしまいます。

最終的には

https://www.akagi.com/content/images/products/200gif/otonagari_strawberry.gif

のように、画像の絶対URLを取得したいです。

おわかりでしたら、教えてください。よろしくお願い致します。

行動規範の内容に同意します

回答2件

ベストアンサー

python
1 'image': scrapy.Request(image_url),

ここを

python
1 'image': image_url,
2

に書き換えるだけではだめですか？

あるいは

python
1 'image': scrapy.Request(image_url).url,
2

でも通ると尾は思いますが。

scrapy.RequestはScrapyに次のアクセスを依頼するものですので、URLを取得するのとは少し違いますね。

投稿2018/06/03 01:58

denzow

総合スコア640

mbase

2018/06/03 02:26

'image': image_url,　で取得できました。ありがとうございます！

行動規範の内容に同意します

絶対URLは

'image': response.urljoin(image_url),

が正着だと思います。

https://doc.scrapy.org/en/latest/topics/request-response.html#scrapy.http.Response.urljoin

もうurljoinしてますね。失礼しました。どっちかというとurljoinの意味を知らなかったのが問題でしたか。

投稿2018/06/03 02:26

編集2018/06/03 02:29

quickquip

総合スコア11038

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

PythonのScrapyで画像URLのみを取得する方法が知りたい

関連した質問