Python+ScrapyでWEBスクレイピング技術を勉強中です。
環境は下記の通り
・Python 2.7.11
・Scrapy 1.4.0
対象サイト:https://www.hituji.jp/comret/search/area
divtタグの'searchList'クラス配下に複数のdivタグで要素が配置されているのですが
CSSのdisplay noneで非表示されていて、ファーストビューの30件しか抽出できません。
何か手法はありますでしょうか?
python
1# -*- coding: utf-8 -*- 2import scrapy 3 4from WebScraping.items import WebscrapingItem 5 6class HitujiListSpider(scrapy.Spider): 7 name = 'hituji_list' 8 allowed_domains = ['www.hituji.jp'] 9 start_urls = ['https://www.hituji.jp/comret/search/area'] 10 11 def parse(self, response): 12 article = WebscrapingItem() 13 14 for d in response.xpath('//div[contains(@class, "follow-component")]'): 15 if d: 16 article['title'] = d.xpath('div[@class="searchList__articleInfo"]/div[contains(@class, "Title")]/a/text()').extract() 17 article['url'] = d.xpath('div[@class="searchList__articleInfo"]/div[contains(@class, "Title")]/a/@href').extract() 18 yield article
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。