scrapyを使ってサイトをスクレイピングする勉強をしています。
スクレイピングしたい対象のa要素のリンクを取得したいのですが、XPATHの指定方法がまずいのか
対象がNONEになるので、どなたかご教授いただければと存じます。
スクレイピング対象のURL構造
html
1<span class="shoulder" style="height: 12px;"> 2 <a href="/articles/-/212352">喫煙や飲酒などはこれまで通り20歳まで禁止</a> 3</span>
作成したコード
import scrapy class TestSpider(scrapy.Spider): name = "test2" start_urls = [ 'http://toyokeizai.net/' ] def parse(self, response): for test in response.css('span.shoulder'): yield { 'title': test.css('a::text').extract_first(), 'src': test.css('記載内容不明。。。').extract_first() } #以下は次のページが有る場合 今回の処理に必要なし next_page = response.css('a.next::attr(href)').extract_first() if next_page is not None: next_page = response.urljoin(next_page) yield scrapy.Request(next_page, callback=self.parse)
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。