scrapyのrulesで相対URLを辿る

現在scrapyを使ってWebスクレイピングの勉強をしています。

start_urlからリンクをたどる必要があるので、ClawlSpiderを使用しようと思っています。

ClawlSpiderのRule文でLinkExtractorのallowを使ってリンクを抽出しようとしています。

しかし、そのstart_urlのページ内のhrefに書かれているURLが相対URLになっているので、抽出できてもアクセスすることができてないようです。

具体例を挙げます。

python
1class OsySpider(scrapy.Spider):
2    name = 'OSy'
3    allowed_domains = ['www0.osakafu-u.ac.jp/syllabus/']
4    start_urls = ['http://www0.osakafu-u.ac.jp/syllabus/']
5
6    def parse(self,response):
7        for href in response.css('#contents > div:nth-child(5) li.li3 a::attr("href")').extract():
8            print(response.urljoin(href))

上のようにすればurljoinを用いることで、目的の絶対URLをただ表示することはできます。

チュートリアルを見ると、allow内はリストでも良いっぽいので
http://scrapy-ja.readthedocs.io/ja/latest/topics/link-extractors.html#topics-link-extractors

python
1    hrefArray = []
2    for href in response.css('#contents > div:nth-child(5) li.li3 a::attr("href")').extract():
3        hrefArray.append(response.urljoin(href))

こんな感じでhrefArrayという絶対URLが入ったリストを作ってみたのですが、

python
1class OsySpider(scrapy.Spider):
2    name = 'OSy'
3    allowed_domains = ['www0.osakafu-u.ac.jp/syllabus/']
4    start_urls = ['http://www0.osakafu-u.ac.jp/syllabus/']
5
6    hrefArray = []
7    for href in response.css('#contents > div:nth-child(5) li.li3 a::attr("href")').extract():
8        hrefArray.append(response.urljoin(href))
9
10    rules = (
11        Rule(LinkExtractor(allow=hrefArray), callback='parse_topics'),
12    )
13
14    def parse_topics(self, response):
15        print('success')

とすると、responseが定義されていません。とエラーが出ます。
恐らくscrapyがrule(parse関数を内包) → callback関数の順番に実行されるからだと思うのですが、これだとリストを創ることができないし、またそれをallowに指定することもできません。

rulesで相対URLをたどることは可能なのでしょうか。
よろしくお願いします。

※ClawlSpiderを使わないで相対URLをたどる方法はこの質問文を書いている時に見つけました。

行動規範の内容に同意します

回答1件

ベストアンサー

とすると、responseが定義されていません。とエラーが出ます。

そもそもこのエラーは下記のようにresponseが存在しないのに使おうとしてるからエラーになるんじゃないでしょうか。

Python
1class OsySpider(scrapy.Spider):
2    name = 'OSy'
3    allowed_domains = ['www0.osakafu-u.ac.jp/syllabus/']
4    start_urls = ['http://www0.osakafu-u.ac.jp/syllabus/']
5
6    hrefArray = []
7    # いきなりここでresponseを使おうとしているからエラー
8    for href in response.css('#contents > div:nth-child(5) li.li3 a::attr("href")').extract():
9        hrefArray.append(response.urljoin(href))
10

なぜ、CrawlSpiderなのはダメだったのかよくわかっていませんが、CrawlSpiderでも下記のようにすれば欲しいリンク(syllabus以下のリンク)を辿ってくれると思いました。

python
1from scrapy.contrib.spiders import Rule
2from scrapy.contrib.linkextractors import LinkExtractor
3from scrapy.contrib.spiders import CrawlSpider
4
5
6class OsySpider(CrawlSpider):
7    name = 'OSy'
8    allowed_domains = ['www0.osakafu-u.ac.jp']
9    start_urls = ['http://www0.osakafu-u.ac.jp/syllabus/']
10    rules = [
11        Rule(LinkExtractor(r'^http://www0.osakafu-u.ac.jp/syllabus/'), follow=True, callback='parse_topics')
12    ]
13
14    def parse_topics(self, response):
15        print('success', response.url)
16

投稿2017/05/31 04:15

tell_k

総合スコア2120

退会済みユーザー

2017/06/02 10:47

うおお..できました... ありがとうございます！ LinkExtractorってパラメータ(allowとかdeny）を使わない書き方もあるのですね。このような使い方ってチュートリアル(http://scrapy-ja.readthedocs.io/ja/latest/topics/link-extractors.html#scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor)にも載っていない様に思うのですが、今後も使ってみたいので仕組みを教えてもらえないでしょうか。

tell_k

2017/06/03 00:23

そのドキュメントに書いてありますね。第一引数のallowをリストではなく正規表現の文字列で指定してるだけです。 > allow (正規表現（またはそのリスト）) – リンクを抽出するために（絶対）URLが一致しなければならない単一の正規表現（または正規表現のリスト）. 指定されていない（または空）場合, すべてのリンクに一致します.

行動規範の内容に同意します