質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

MacOS(OSX)

MacOSとは、Appleの開発していたGUI(グラフィカルユーザーインターフェース)を採用したオペレーションシステム(OS)です。Macintoshと共に、市場に出てGUIの普及に大きく貢献しました。

Scrapy

Scrapyは、Pythonで開発されたオープンソースソフトウェアです。スクレイピングという、Webサービスから必要な情報を取り出したり自動操作をしたりする技術を使うものです。

Q&A

0回答

990閲覧

scrapyのspiderを使用してリンクのURLを表示できない

kazu130

総合スコア17

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

MacOS(OSX)

MacOSとは、Appleの開発していたGUI(グラフィカルユーザーインターフェース)を採用したオペレーションシステム(OS)です。Macintoshと共に、市場に出てGUIの普及に大きく貢献しました。

Scrapy

Scrapyは、Pythonで開発されたオープンソースソフトウェアです。スクレイピングという、Webサービスから必要な情報を取り出したり自動操作をしたりする技術を使うものです。

0グッド

0クリップ

投稿2019/01/18 06:09

超初心者です。
https://www.db.yugioh-card.com/yugiohdb/card_list.action

CSSセレクター
#card_list_1
の全リンクを取得したいのですが

フレームワークscrapyを使ってリンク先のURLを取得しようとしても
scrapy shellでcssセレクターで

response.css('#card_list_1.link_value').extract()

を入力し試した際はうまくいったにも関わらず
spaidarに記述したらエラーがでます。

目標としてはトピックのURLを表示してリンクを辿ってスクレイピングをしたいです。

python

1mport scrapy 2 3 4class ListSpider(scrapy.Spider): 5 name = 'list'#spiderの名前 6 allowed_domains = ['db.yugioh-card.com/yugiohdb/card_list.action'] 7 start_urls = ['http://db.yugioh-card.com/yugiohdb/card_list.action/'] 8 def parse(self, response): 9 print(response.css('#card_list_1.link_value').extract()) 10

puthon

1 scrapy crawl list

結果

2019-01-18 14:50:07 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: yu)
2019-01-18 14:50:07 [scrapy.utils.log] INFO: Versions: lxml 4.3.0.0, libxml2 2.9.9, cssselect 1.0.3, parsel 1.5.1, w3lib 1.20.0, Twisted 18.9.0, Python 3.7.2 (default, Dec 27 2018, 07:35:06) - [Clang 10.0.0 (clang-1000.11.45.5)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Darwin-18.2.0-x86_64-i386-64bit
2019-01-18 14:50:07 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'yu', 'NEWSPIDER_MODULE': 'yu.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['yu.spiders']}
2019-01-18 14:50:07 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.memusage.MemoryUsage',
'scrapy.extensions.logstats.LogStats']
2019-01-18 14:50:07 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2019-01-18 14:50:07 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2019-01-18 14:50:07 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2019-01-18 14:50:07 [scrapy.core.engine] INFO: Spider opened
2019-01-18 14:50:07 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2019-01-18 14:50:07 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2019-01-18 14:50:07 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://www.db.yugioh-card.com/robots.txt> from <GET http://www.db.yugioh-card.com/robots.txt>
2019-01-18 14:50:07 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.db.yugioh-card.com/robots.txt> (referer: None)
2019-01-18 14:50:07 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://www.db.yugioh-card.com/yugiohdb/card_list.action/> from <GET http://www.db.yugioh-card.com/yugiohdb/card_list.action/>
2019-01-18 14:50:07 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.db.yugioh-card.com/yugiohdb/card_list.action/> (referer: None)
[]
2019-01-18 14:50:07 [scrapy.core.engine] INFO: Closing spider (finished)
2019-01-18 14:50:07 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 2108,
'downloader/request_count': 4,
'downloader/request_method_count/GET': 4,
'downloader/response_bytes': 8250,
'downloader/response_count': 4,
'downloader/response_status_count/200': 2,
'downloader/response_status_count/302': 2,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2019, 1, 18, 5, 50, 7, 873171),
'log_count/DEBUG': 5,
'log_count/INFO': 7,
'memusage/max': 48877568,
'memusage/startup': 48873472,
'response_received_count': 2,
'scheduler/dequeued': 2,
'scheduler/dequeued/memory': 2,
'scheduler/enqueued': 2,
'scheduler/enqueued/memory': 2,
'start_time': datetime.datetime(2019, 1, 18, 5, 50, 7, 493607)}
2019-01-18 14:50:07 [scrapy.core.engine] INFO: Spider closed (finished)

環境は mac OS 10.14.1 Python 3.7.2 Scrapy 1.5.1 初心者のため、質問がぶしつけで申し訳ございませんがよろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問