*追記依頼に対して、情報を追加し、再度ポスト致します。
Scrapyを使いスクレイピングをしていますが、以下のコードに対するレスポンスが'\r\n 5000'となります。
コードはこちらになります。
import scrapy
class PropertySpider(scrapy.Spider):
name = 'property'
allowed_domains = ['www.nomu.com']
def start_requests(self): yield scrapy.Request(url='https://www.nomu.com/mansion/SearchList/?pkg=mansion&wide=13&type=area&wide_name=tokyo&area_group_cd=C&area_id[]=13101&area_id[]=13103&area_id[]=13102&area_id[]=13113&area_id[]=13104&area_id[]=13105&area_id[]=13116&area_id[]=13117&area_id[]=13119&area_id[]=13122&area_id[]=13123&area_id[]=13108&area_id[]=13118&area_id[]=13121&area_id[]=13106&area_id[]=13107&area_id[]=13109&area_id[]=13112&area_id[]=13110&area_id[]=13111&area_id[]=13120&area_id[]=13114&area_id[]=13115&area_id[]=13201&area_id[]=13202&area_id[]=13203&area_id[]=13204&area_id[]=13205&area_id[]=13206&area_id[]=13207&area_id[]=13208&area_id[]=13209&area_id[]=13210&area_id[]=13211&area_id[]=13212&area_id[]=13213&area_id[]=13214&area_id[]=13215&area_id[]=13218&area_id[]=13219&area_id[]=13220&area_id[]=13221&area_id[]=13222&area_id[]=13224&area_id[]=13225&area_id[]=13227&area_id[]=13229&pager_page=1', callback=self.parse, headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36' }) def parse(self, response): for house in response.xpath("//tr"): yield { 'size': house.xpath(".//td[4]/p/text()").get(), 'User-Agent': response.request.headers['User-Agent'] } next_page = 'https://www.nomu.com/'+ response.xpath("//li[@class='item_link skin_next']/a/@href").get() if next_page: yield scrapy.Request(url=next_page, callback=self.parse, headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36' })
こちらをRunすると、サイズの項目がターミナルでは'r\n\ 5000'と一応スクレイプできているようですが、CSVとしてアウトプットすると空白として出ました。そのため、スペースを除去しようと 'size': house.xpath(".//td[4]/p/text()").get().strip()としたのですが、エラーとして”AttributeError: 'NoneType' object has no attribute 'strip'”と出ています。
あなたの回答
tips
プレビュー