###やろうとしていること
転職サイトから企業名やURL等をスクレイピングしようとしています。サイト上でxpathを調べると求めている情報をきちんと指定できているのですが、pythonで実装して実行するとデータが空欄となってしまい、うまく情報が取れません。
pythonのscrapyを使用しており、spiderの中身は以下の通りです。
どなたか原因のわかる方がいらっしゃいましたら、ご教授お願い致します。
Python
1class MynaviTensyokuSpider(scrapy.Spider): 2 name = 'mynavi_tensyoku' 3 allowed_domains = ['tenshoku.mynavi.jp'] 4 start_urls = ['https://tenshoku.mynavi.jp/engineer/list/p11+p12+p13+p14/o16+o17/e01/pg{0}/?soff=1&ags=0'.format(i+1) for i in range(2)] 5 6 def parse(self, response): 7 item = MynaviScrapyItem() 8 url = 'https://tenshoku.mynavi.jp' 9 10 def format_nsp(strs): 11 return re.sub('<.*?>|\s', '', strs) if strs is not None else None 12 13 for article in response.xpath('//section[@class="recruit engineer"]/div[contains(@class,"box")]'): 14 info = article.xpath('div[@class="recruit_head"]/h2') 15 16 url_tmp = format_nsp(''.join(info.xpath('p[@class="sub_title"]/a/@href').extract())) 17 item['url'] = url + str(url_tmp)
###確認したこと
上記のコードで指定しているxpathは以下の通りであり、欲しい情報が指定できていることを確認済みです。
xpath
1//section[@class="recruit engineer"]/div[contains(@class,"box")]/div[@class="recruit_head"]/h2/p[@class="sub_title"]/a/@href
素人質問で恐縮ですが、宜しくお願いします。
あなたの回答
tips
プレビュー