質問編集履歴

タイトルの変更

2017/08/17 06:30

投稿

nozomu.i

スコア8

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- Pythonクローリング＆スクレイピングのサンプルコードを改変したがエラーが発生する
1	+ Pythonクローリング＆スクレイピングのサンプルコードを実行したが、エラーが発生する

body CHANGED Viewed

File without changes

書式の改善、詳細について記述

2017/08/17 06:30

投稿

nozomu.i

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,78 +1,123 @@
 ###前提・実現したいこと
 Pythonクローリング＆スクレイピング ―データ収集・解析のための実践開発ガイド―
 http://gihyo.jp/book/2017/978-4-7741-8367-1/support
-上記のサンプルコードをダウンロードし、6-7のtabelogというプログラムを以下のように改変しましたが、エラーが起こりました。
+上記のサンプルコードをダウンロードし、6-7のtabelogというプログラムを実行しましたが、エラーが発生しました。
+###前提・実現したいこと
+食べログに掲載されている情報をcsvのリストにしたい。
 ###発生している問題・エラーメッセージ
-NozomuI-no-MacBook:6-7 nozomui$ scrapy crawl asos -o a.csv
+```
+(scraping3.4) NozomuI-no-MacBook:6-7 nozomui$ scrapy crawl tabelog -o a.csv
+2017-08-17 15:08:56 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: myproject)
+2017-08-17 15:08:56 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': 'myproject', 'SPIDER_MODULES': ['myproject.spiders'], 'DOWNLOAD_DELAY': 1, 'FEED_FORMAT': 'csv', 'FEED_URI': 'a.csv', 'ROBOTSTXT_OBEY': True, 'NEWSPIDER_MODULE': 'myproject.spiders'}
+2017-08-17 15:08:56 [scrapy.middleware] INFO: Enabled extensions:
+['scrapy.extensions.feedexport.FeedExporter',
+ 'scrapy.extensions.memusage.MemoryUsage',
+ 'scrapy.extensions.logstats.LogStats',
+ 'scrapy.extensions.telnet.TelnetConsole',
+ 'scrapy.extensions.corestats.CoreStats']
+2017-08-17 15:08:56 [scrapy.middleware] INFO: Enabled downloader middlewares:
+['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
+ 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
+ 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
+ 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
+ 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
+ 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
+ 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
+ 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
+ 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
+ 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
+ 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
+ 'scrapy.downloadermiddlewares.stats.DownloaderStats']
+2017-08-17 15:08:56 [scrapy.middleware] INFO: Enabled spider middlewares:
+['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
+ 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
+ 'scrapy.spidermiddlewares.referer.RefererMiddleware',
+ 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
+ 'scrapy.spidermiddlewares.depth.DepthMiddleware']
+2017-08-17 15:08:56 [scrapy.middleware] INFO: Enabled item pipelines:
+[]
+2017-08-17 15:08:56 [scrapy.core.engine] INFO: Spider opened
+2017-08-17 15:08:56 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
+2017-08-17 15:08:56 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6026
+2017-08-17 15:08:57 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://tabelog.com/robots.txt> (referer: None)
+2017-08-17 15:08:58 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://tabelog.com/tokyo/rstLst/lunch/?LstCosT=2&RdoCosTp=1> (referer: None)
+2017-08-17 15:09:00 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://tabelog.com/tokyo/rstLst/lunch/2/?LstCosT=2&RdoCosTp=1> (referer: https://tabelog.com/tokyo/rstLst/lunch/?LstCosT=2&RdoCosTp=1)
+2017-08-17 15:09:00 [scrapy.dupefilters] DEBUG: Filtered duplicate request: <GET https://tabelog.com/tokyo/rstLst/lunch/2/?LstCosT=2&RdoCosTp=1> - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)
+2017-08-17 15:09:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://tabelog.com/tokyo/A1309/A130902/13000852/> (referer: https://tabelog.com/tokyo/rstLst/lunch/?LstCosT=2&RdoCosTp=1)
+2017-08-17 15:09:01 [scrapy.core.scraper] ERROR: Spider error processing <GET https://tabelog.com/tokyo/A1309/A130902/13000852/> (referer: https://tabelog.com/tokyo/rstLst/lunch/?LstCosT=2&RdoCosTp=1)
 Traceback (most recent call last):
-  File "/Users/nozomui/.pyenv/versions/3.6.1/bin/scrapy", line 11, in <module>
-    sys.exit(execute())
-  File "/Users/nozomui/.pyenv/versions/3.6.1/lib/python3.6/site-packages/scrapy/cmdline.py", line 148, in execute
-    cmd.crawler_process = CrawlerProcess(settings)
-  File "/Users/nozomui/.pyenv/versions/3.6.1/lib/python3.6/site-packages/scrapy/crawler.py", line 243, in __init__
-    super(CrawlerProcess, self).__init__(settings)
-  File "/Users/nozomui/.pyenv/versions/3.6.1/lib/python3.6/site-packages/scrapy/crawler.py", line 134, in __init__
-    self.spider_loader = _get_spider_loader(settings)
-  File "/Users/nozomui/.pyenv/versions/3.6.1/lib/python3.6/site-packages/scrapy/crawler.py", line 330, in _get_spider_loader
-    return loader_cls.from_settings(settings.frozencopy())
-  File "/Users/nozomui/.pyenv/versions/3.6.1/lib/python3.6/site-packages/scrapy/spiderloader.py", line 61, in from_settings
-    return cls(settings)
-  File "/Users/nozomui/.pyenv/versions/3.6.1/lib/python3.6/site-packages/scrapy/spiderloader.py", line 25, in __init__
-    self._load_all_spiders()
-  File "/Users/nozomui/.pyenv/versions/3.6.1/lib/python3.6/site-packages/scrapy/spiderloader.py", line 47, in _load_all_spiders
-    for module in walk_modules(name):
-  File "/Users/nozomui/.pyenv/versions/3.6.1/lib/python3.6/site-packages/scrapy/utils/misc.py", line 71, in walk_modules
+  File "/Users/nozomui/.pyenv/versions/3.4.6/lib/python3.4/site-packages/scrapy/utils/defer.py", line 102, in iter_errback
+    yield next(it)
+  File "/Users/nozomui/.pyenv/versions/3.4.6/lib/python3.4/site-packages/scrapy/spidermiddlewares/offsite.py", line 29, in process_spider_output
+    for x in result:
+  File "/Users/nozomui/.pyenv/versions/3.4.6/lib/python3.4/site-packages/scrapy/spidermiddlewares/referer.py", line 339, in <genexpr>
+    return (_set_referer(r) for r in result or ())
+  File "/Users/nozomui/.pyenv/versions/3.4.6/lib/python3.4/site-packages/scrapy/spidermiddlewares/urllength.py", line 37, in <genexpr>
-    submod = import_module(fullpath)
+    return (r for r in result or () if _filter(r))
+  File "/Users/nozomui/.pyenv/versions/3.4.6/lib/python3.4/site-packages/scrapy/spidermiddlewares/depth.py", line 58, in <genexpr>
+    return (r for r in result or () if _filter(r))
-  File "/Users/nozomui/.pyenv/versions/3.6.1/lib/python3.6/importlib/__init__.py", line 126, in import_module
+  File "/Users/nozomui/.pyenv/versions/3.4.6/lib/python3.4/site-packages/scrapy/spiders/crawl.py", line 78, in _parse_response
-    return _bootstrap._gcd_import(name[level:], package, level)
+    for requests_or_item in iterate_spider_output(cb_res):
-  File "<frozen importlib._bootstrap>", line 978, in _gcd_import
-  File "<frozen importlib._bootstrap>", line 961, in _find_and_load
-  File "<frozen importlib._bootstrap>", line 950, in _find_and_load_unlocked
-  File "<frozen importlib._bootstrap>", line 655, in _load_unlocked
-  File "<frozen importlib._bootstrap_external>", line 678, in exec_module
-  File "<frozen importlib._bootstrap>", line 205, in _call_with_frames_removed
-  File "/Users/nozomui/Desktop/sample_codes/6-7/myproject/spiders/broad.py", line 4, in <module>
+  File "/Users/nozomui/scraping3.4/6-7/myproject/spiders/tabelog.py", line 38, in parse_restaurant
-    from myproject.utils import get_content
-  File "/Users/nozomui/Desktop/sample_codes/6-7/myproject/utils.py", line 4, in <module>
+    address=response.css('[rel="address"]').xpath('string()').extract_first().strip(),
-    import readability
-ModuleNotFoundError: No module named 'readability'
+AttributeError: 'NoneType' object has no attribute 'strip'
+^Z
+[4]+  Stopped                 scrapy crawl tabelog -o a.csv
 ```
 ###該当のソースコード
-```こ
+```python
 from scrapy.spiders import CrawlSpider, Rule
 from scrapy.linkextractors import LinkExtractor
-from myproject.items import product
+from myproject.items import Restaurant
-class AsosSpider(CrawlSpider):
+class TabelogSpider(CrawlSpider):
-    name = "asos"
+    name = "tabelog"
-    allowed_domains = ["asos.com"]
+    allowed_domains = ["tabelog.com"]
     start_urls = (
+        # 東京の昼のランキングのURL。
+        # 普通にWebサイトを見ていると、もっとパラメーターが多くなるが、
+        # ページャーのリンクを見ると、値が0のパラメーターは省略できることがわかる。
-               'http://www.asos.com/women/new-in-clothing/cat/?cid=2623',
+        'https://tabelog.com/tokyo/rstLst/lunch/?LstCosT=2&RdoCosTp=1',
     )
     rules = [
         # ページャーをたどる（最大9ページまで）。
+        # 正規表現の \d を \d+ に変えると10ページ目以降もたどれる。
-        Rule(LinkExtractor(allow=r'http://www.asos.com/women/new-in-clothing/cat/?cid=2623&pge=\d')),
+        Rule(LinkExtractor(allow=r'/\w+/rstLst/lunch/\d/')),
-        # 商品の詳細ページをパースする。
+        # レストランの詳細ページをパースする。
-        Rule(LinkExtractor(allow=r'http://www.asos.com/prd/\d+'),
+        Rule(LinkExtractor(allow=r'/\w+/A\d+/A\d+/\d+/$'),
-             callback='parse_product'),
+             callback='parse_restaurant'),
     ]
-    def parse_product(self, response):
+    def parse_restaurant(self, response):
         """
-        商品の詳細ページをパースする。
+        レストランの詳細ページをパースする。
         """
+        # Google Static Mapsの画像のURLから緯度と経度を取得。
+        latitude, longitude = response.css(
+            'img.js-map-lazyload::attr("data-original")').re(
+                r'markers=.*?%7C([\d.]+),([\d.]+)')
-               # キーの値を指定してproductオブジェクトを作成。
+        # キーの値を指定してRestaurantオブジェクトを作成。
-        item = product(
+        item = Restaurant(
+            name=response.css('.display-name').xpath('string()').extract_first().strip(),
-            name=response.css('#aside-content > div.product-hero > h1').xpath('string()').extract_first().strip(),
+            address=response.css('[rel="address"]').xpath('string()').extract_first().strip(),
+            latitude=latitude,
+            longitude=longitude,
+            station=response.css('dt:contains("最寄り駅")+dd span::text').extract_first(),
-            price=response.css('#product-price > div > span.current-price').xpath('string()').extract_first().strip(),
+            score=response.css('[rel="v:rating"] span::text').extract_first(),
         )
         yield item
-```
+```
+###試したこと
+python3.4.6で実行しました。scrapyのバージョンは1.4.0です。