編集履歴

質問編集履歴

変更

2018/04/19 09:18

投稿

RarigoB

スコア26

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,119 +1,4 @@
-分からないこと
-scrapyでクローリングしたいサイトのページャーなどのリンクが辿れていないぽい。
-実現したいこと
-正常にクロールしたい
-状況
-http://777.slopachi-station.com/report_schedule/
-上記のサイトの取材スケジュールを取得するスパイダーを作成しようとしたのですが、リンクがうまく辿れていないみたいです。
-上記のページからページャをたどり、各ページに記載されてる店舗ページにアクセスし、情報を取得しようと考えています。
-```Python3
-from scrapy.spiders import CrawlSpider, Rule
-from scrapy.linkextractors import LinkExtractor
-from slotcrawler.items import Shop_data
-class SlotSpider(CrawlSpider):
-    name = 'slot'
-    allowed_domains = ["777.slopachi-station.com"]
-    start_urls = (
-    'http://777.slopachi-station.com/report_schedule/',
-    )
-    rules = [
-    Rule(LinkExtractor(allow=r'/report_schedule/page/\d+/')),
-    Rule(LinkExtractor(allow=r'/shop_data/\d+/'),
-    follow=True,
-    callback='parse_hall'),
-    ]
-    def parse_hall(self, response):
-        item=Shop_data(
-        name=response.xpath('//*[@id="shopDetail"]/div[1]/h2/text()').extract_first(),
-        scedule=response.xpath('//*[@id="report_schedule"]/div[@class="resultRow resultRow-tile"]/text()').extract(),
-        add1=response.xpath('//*[@id="breadcrumb"]/a[2]/text()').extract_first(),
-        add2=response.xpath('//*[@id="breadcrumb"]/a[3]/text()').extract_first(),
-        )
-        yield item
-```
-```items.py
-import scrapy
-class Shop_data(scrapy.Item):
-    name = scrapy.Field
-    scedule = scrapy.Field
-    add1 = scrapy.Field
-    add2 = scrapy.Field
-```
-seting.pyはダウンロード間隔を追加しました。
-```terminal
-2018-04-15 22:24:53 [scrapy.utils.log] INFO: Scrapy 1.5.0 started (bot: slotcrawler)
-2018-04-15 22:24:53 [scrapy.utils.log] INFO: Versions: lxml 3.5.0.0, libxml2 2.9.3, cssselect 1.0.1, parsel 1.3.1, w3lib 1.18.0, Twisted 17.9.0, Python 3.5.2 (default, Nov 23 2017, 16:37:01) - [GCC 5.4.0 20160609], pyOpenSSL 17.5.0 (OpenSSL 1.1.0g  2 Nov 2017), cryptography 2.1.4, Platform Linux-4.4.0-119-generic-x86_64-with-Ubuntu-16.04-xenial
-2018-04-15 22:24:53 [scrapy.crawler] INFO: Overridden settings: {'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['slotcrawler.spiders'], 'NEWSPIDER_MODULE': 'slotcrawler.spiders', 'FEED_FORMAT': 'jl', 'FEED_URI': 'hall.jl', 'DOWNLOAD_DELAY': 1, 'BOT_NAME': 'slotcrawler'}
-2018-04-15 22:24:53 [scrapy.middleware] INFO: Enabled extensions:
-['scrapy.extensions.corestats.CoreStats',
- 'scrapy.extensions.memusage.MemoryUsage',
- 'scrapy.extensions.logstats.LogStats',
- 'scrapy.extensions.feedexport.FeedExporter',
- 'scrapy.extensions.telnet.TelnetConsole']
-2018-04-15 22:24:53 [scrapy.middleware] INFO: Enabled downloader middlewares:
-['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
- 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
- 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
- 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
- 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
- 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
- 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
- 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
- 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
- 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
- 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
- 'scrapy.downloadermiddlewares.stats.DownloaderStats']
-2018-04-15 22:24:53 [scrapy.middleware] INFO: Enabled spider middlewares:
-['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
- 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
- 'scrapy.spidermiddlewares.referer.RefererMiddleware',
- 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
- 'scrapy.spidermiddlewares.depth.DepthMiddleware']
-2018-04-15 22:24:53 [scrapy.middleware] INFO: Enabled item pipelines:
-[]
-2018-04-15 22:24:53 [scrapy.core.engine] INFO: Spider opened
-2018-04-15 22:24:53 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
-2018-04-15 22:24:53 [scrapy.extensions.telnet] DEBUG: Telnet console listening on *************
-2018-04-15 22:24:53 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://777.slopachi-station.com/robots.txt> (referer: None)
-2018-04-15 22:24:54 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://777.slopachi-station.com/report_schedule/> (referer: None)
-2018-04-15 22:24:55 [scrapy.core.engine] INFO: Closing spider (finished)
-2018-04-15 22:24:55 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
-{'downloader/request_bytes': 534,
- 'downloader/request_count': 2,
- 'downloader/request_method_count/GET': 2,
- 'downloader/response_bytes': 11277,
- 'downloader/response_count': 2,
- 'downloader/response_status_count/200': 2,
- 'finish_reason': 'finished',
- 'finish_time': datetime.datetime(2018, 4, 15, 13, 24, 55, 9470),
- 'log_count/DEBUG': 3,
- 'log_count/INFO': 7,
- 'memusage/max': 54620160,
- 'memusage/startup': 54620160,
- 'response_received_count': 2,
- 'scheduler/dequeued': 1,
- 'scheduler/dequeued/memory': 1,
- 'scheduler/enqueued': 1,
- 'scheduler/enqueued/memory': 1,
- 'start_time': datetime.datetime(2018, 4, 15, 13, 24, 53, 523839)}
-2018-04-15 22:24:55 [scrapy.core.engine] INFO: Spider closed (finished)
-```
-このような感じでそもそもページャーも詳細ページもたどれてないみたいです。
-解決策を教えてください。
+scrapyでクローリングしたいときに
+RuleとLinkExtractorを使用し、ページを辿りたいのですが、
+表示されているページャーの番号のリンクを辿ってしまいます。
+次へのリンクをたどるにはどうすればいいでしょうか？