質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.86%

  • Python 3.x

    4793questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • スクレイピング

    250questions

  • Scrapy

    65questions

    Scrapyは、Pythonで開発されたオープンソースソフトウェアです。スクレイピングという、Webサービスから必要な情報を取り出したり自動操作をしたりする技術を使うものです。

scrapyを使用したスクレイピングの動作について

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 216

kk.o

score 3

scrapyを使用し、動作を確認を行ったところ、
クロールしたページが0になります。
ソースを何パターンか変更し確認を行ったところ、
常に同様の現象になっています。
以下に書籍の内容を実行した際の状況を記載いたします。
ネットやオリジナルのソースで確認を実施しても同様のログになります。
根本的に抜けている所がありますでしょうか?

2018-01-06 17:35:09 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
(scrapy crawl quotes)

環境
・windowd10 64bit pro
・Python 3.6.3 :: Anaconda, Inc.

手順
①コマンド:scrapy startproject my_project
②cd my_project
③scrapy genspider -t crawl quotes quotes.toscrape.com
④quotes.pyとitems.pyとsettings.pyの変更を実施。
その他作成された.pyはデフォルトのままです。

items.py
import scrapy
class Quote(scrapy.Item):
author = scrapy.Field()
text = scrapy.Field()
tags = scrapy.Field()

settings.py
BOT_NAME = 'my_project'
SPIDER_MODULES = ['my_project.spiders']
NEWSPIDER_MODULE = 'my_project.spiders'
ROBOTSTXT_OBEY = True
REDIRECT_MAX_TIMES = 6
RETRY_ENABLED = False
DOWNLOAD_DELAY = 3

実行コマンド 
scrapy crawl quotes

ログ
(tf140) C:\Users\ogawa\Desktop\my_project\my_project\my_project\spiders>scrapy crawl quotes
OK
2018-01-06 17:35:09 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: my_project)
2018-01-06 17:35:09 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': 'my_project', 'DOWNLOAD_DELAY': 3, 'NEWSPIDER_MODULE': 'my_project.spiders', 'REDIRECT_MAX_TIMES': 6, 'RETRY_ENABLED': False, 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['my_project.spiders']}
2018-01-06 17:35:09 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.logstats.LogStats']
2018-01-06 17:35:09 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-01-06 17:35:09 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-01-06 17:35:09 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-01-06 17:35:09 [scrapy.core.engine] INFO: Spider opened
2018-01-06 17:35:09 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-01-06 17:35:09 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-01-06 17:35:10 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://quotes.toscrape.com/robots.txt> (referer: None)
2018-01-06 17:35:13 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/> (referer: None)
2018-01-06 17:35:13 [scrapy.core.scraper] ERROR: Spider error processing <GET http://quotes.toscrape.com/> (referer: None)
Traceback (most recent call last):
File "C:\Users\ogawa\AppData\Local\conda\conda\envs\tf140\lib\site-packages\twisted\internet\defer.py", line 653, in _runCallbacks
current.result = callback(current.result, *args, **kw)
File "C:\Users\ogawa\Desktop\my_project\my_project\my_project\spiders\quotes.py", line 27, in parse
items.append(item)
NameError: name 'items' is not defined
2018-01-06 17:35:13 [scrapy.core.engine] INFO: Closing spider (finished)
2018-01-06 17:35:13 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 444,
'downloader/request_count': 2,
'downloader/request_method_count/GET': 2,
'downloader/response_bytes': 2701,
'downloader/response_count': 2,
'downloader/response_status_count/200': 1,
'downloader/response_status_count/404': 1,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2018, 1, 6, 8, 35, 13, 579903),
'log_count/DEBUG': 3,
'log_count/ERROR': 1,
'log_count/INFO': 7,
'response_received_count': 2,
'scheduler/dequeued': 1,
'scheduler/dequeued/memory': 1,
'scheduler/enqueued': 1,
'scheduler/enqueued/memory': 1,
'spider_exceptions/NameError': 1,
'start_time': datetime.datetime(2018, 1, 6, 8, 35, 9, 993096)}
2018-01-06 17:35:13 [scrapy.core.engine] INFO: Spider closed (finished)

ご教授よろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

0

エラーになっています。
quotes.pyをデバッグしてください。

File "C:\Users\ogawa\Desktop\my_project\my_project\my_project\spiders\quotes.py", line 27, in parse
items.append(item)
NameError: name 'items' is not defined

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/01/07 21:40

    ご確認ありがとうございます。
    linuxの環境を構築して確認中です。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.86%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python 3.x

    4793questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • スクレイピング

    250questions

  • Scrapy

    65questions

    Scrapyは、Pythonで開発されたオープンソースソフトウェアです。スクレイピングという、Webサービスから必要な情報を取り出したり自動操作をしたりする技術を使うものです。