編集履歴

質問編集履歴

2019/07/07 23:25

投稿

abokadoishii

スコア12

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -18,68 +18,68 @@
 parse error: Invalid numeric literal at line 3, column 0
+### ソースコード
+```Python
+import scrapy
+from myproject.items import Page
+from myproject.utils import get_content
+from bs4 import BeautifulSoup
+class BroadSpider(scrapy.Spider):
+	name = 'broad'
+	allowed_domains = ['b.hatena.ne.jp/entrylist']
+	start_urls = ['http://b.hatena.ne.jp/entrylist/']
+	def parse(self, response):
+		print('\n\nresponse:{}\n\n'.format(response))
+		for url in response.css('.entrylist-contents-title a::attr("herf")').extract():
+			yield scrapy.Request(url,callback=self.parse_page)
+			print("\n\nurl:{}\n\n".format(url))
+		url_more=response.css('a::attr("href")').re_first(r'.*?of=\d{2}$')
+		print("\n\nurl_more:{}\n\n".format(url_more))
+		if url_more:
+			yield scrapy.Request(responce.urljoin(url_more))
+	def parse_page(self, response):
+		print('\n\npase_page\n\n')
+		title, content = get_content(reaponse.text)
+		yield Page(url=responce.url, title=title , content=content)
 ```
-### ソースコード
-```Python
-import scrapy
-from myproject.items import Page
-from myproject.utils import get_content
-from bs4 import BeautifulSoup
-class BroadSpider(scrapy.Spider):
-	name = 'broad'
-	allowed_domains = ['b.hatena.ne.jp/entrylist']
-	start_urls = ['http://b.hatena.ne.jp/entrylist/']
-	def parse(self, response):
-		print('\n\nresponse:{}\n\n'.format(response))
-		for url in response.css('.entrylist-contents-title a::attr("herf")').extract():
-			yield scrapy.Request(url,callback=self.parse_page)
-			print("\n\nurl:{}\n\n".format(url))
-		url_more=response.css('a::attr("href")').re_first(r'.*?of=\d{2}$')
-		print("\n\nurl_more:{}\n\n".format(url_more))
-		if url_more:
-			yield scrapy.Request(responce.urljoin(url_more))
-	def parse_page(self, response):
-		print('\n\npase_page\n\n')
-		title, content = get_content(reaponse.text)
-		yield Page(url=responce.url, title=title , content=content)
-```
 ###scrapy crawl broad -o page.jlを実行した結果

2019/07/07 23:25

投稿

abokadoishii

スコア12

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -20,11 +20,11 @@
 ```
-###ソースコード
+### ソースコード
 ```Python
-`
 import scrapy

2019/07/07 23:24

投稿

abokadoishii

スコア12

test CHANGED Viewed

File without changes

test CHANGED Viewed

File without changes

2019/07/07 23:23

投稿

abokadoishii

スコア12

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -20,6 +20,8 @@
 ```
+###ソースコード
 ```Python
 `

2019/07/07 23:23

投稿

abokadoishii

スコア12

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -20,70 +20,64 @@
 ```
+```Python
+`
+import scrapy
+from myproject.items import Page
+from myproject.utils import get_content
+from bs4 import BeautifulSoup
+class BroadSpider(scrapy.Spider):
+	name = 'broad'
+	allowed_domains = ['b.hatena.ne.jp/entrylist']
+	start_urls = ['http://b.hatena.ne.jp/entrylist/']
+	def parse(self, response):
+		print('\n\nresponse:{}\n\n'.format(response))
+		for url in response.css('.entrylist-contents-title a::attr("herf")').extract():
+			yield scrapy.Request(url,callback=self.parse_page)
+			print("\n\nurl:{}\n\n".format(url))
+		url_more=response.css('a::attr("href")').re_first(r'.*?of=\d{2}$')
+		print("\n\nurl_more:{}\n\n".format(url_more))
-### 該当のソースコード
+		if url_more:
+			yield scrapy.Request(responce.urljoin(url_more))
+	def parse_page(self, response):
+		print('\n\npase_page\n\n')
+		title, content = get_content(reaponse.text)
+		yield Page(url=responce.url, title=title , content=content)
 ```
-import scrapy
-from myproject.items import Page
-from myproject.utils import get_content
-from bs4 import BeautifulSoup
-class BroadSpider(scrapy.Spider):
-	name = 'broad'
-	allowed_domains = ['b.hatena.ne.jp/entrylist']
-	start_urls = ['http://b.hatena.ne.jp/entrylist/']
-	def parse(self, response):
-		print('\n\nresponse:{}\n\n'.format(response))
-		for url in response.css('.entrylist-contents-title a::attr("herf")').extract():
-			yield scrapy.Request(url,callback=self.parse_page)
-			print("\n\nurl:{}\n\n".format(url))
-		url_more=response.css('a::attr("href")').re_first(r'.*?of=\d{2}$')
-		print("\n\nurl_more:{}\n\n".format(url_more))
-		if url_more:
-			yield scrapy.Request(responce.urljoin(url_more))
-	def parse_page(self, response):
-		print('\n\npase_page\n\n')
-		title, content = get_content(reaponse.text)
-		yield Page(url=responce.url, title=title , content=content)
-```
 ###scrapy crawl broad -o page.jlを実行した結果

2019/07/07 23:22

投稿

abokadoishii

スコア12

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -14,20 +14,20 @@
+parse error: Invalid numeric literal at line 3, column 0
 ```
-parse error: Invalid numeric literal at line 3, column 0
+### 該当のソースコード
 ```
-### 該当のソースコード
-```python
 import scrapy
 from myproject.items import Page
@@ -80,7 +80,7 @@
 		yield Page(url=responce.url, title=title , content=content)
+```

誤字修正

2019/07/07 23:20

投稿

abokadoishii

スコア12

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -234,4 +234,4 @@
-pagesの中身はOKBで何も書かれていない状態でした。
+pageは生成されていませんでした。

scrapy crawl broad -o page.jlを実行した結果を追記しました。

2019/07/07 16:07

投稿

abokadoishii

スコア12

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -26,9 +26,7 @@
-```ここに言語名を入力
-# -*- python -*-
+```python
 import scrapy
@@ -84,6 +82,156 @@
-```
+###scrapy crawl broad -o page.jlを実行した結果
+Page
+2019-07-08 00:57:35 [scrapy.utils.log] INFO: Scrapy 1.6.0 started (bot: myproject)
+2019-07-08 00:57:35 [scrapy.utils.log] INFO: Versions: lxml 4.3.3.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.20.0, Twisted 19.2.0, Python 3.7.3 (v3.7.3:ef4ec6ed12, Mar 25 2019, 21:26:53) [MSC v.1916 32 bit (Intel)], pyOpenSSL 19.0.0 (OpenSSL 1.1.1b  26 Feb 2019), cryptography 2.6.1, Platform Windows-10-10.0.17134-SP0
+2019-07-08 00:57:35 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'myproject', 'DOWNLOAD_DELAY': 3, 'FEED_FORMAT': 'jl', 'FEED_URI': 'page.jl', 'NEWSPIDER_MODULE': 'myproject.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['myproject.spiders']}
+2019-07-08 00:57:35 [scrapy.extensions.telnet] INFO: Telnet Password: 2305ec51de6031e2
+2019-07-08 00:57:35 [scrapy.middleware] INFO: Enabled extensions:
+['scrapy.extensions.corestats.CoreStats',
+ 'scrapy.extensions.telnet.TelnetConsole',
+ 'scrapy.extensions.feedexport.FeedExporter',
+ 'scrapy.extensions.logstats.LogStats']
+2019-07-08 00:57:36 [scrapy.middleware] INFO: Enabled downloader middlewares:
+['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
+ 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
+ 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
+ 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
+ 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
+ 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
+ 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
+ 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
+ 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
+ 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
+ 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
+ 'scrapy.downloadermiddlewares.stats.DownloaderStats']
+2019-07-08 00:57:36 [scrapy.middleware] INFO: Enabled spider middlewares:
+['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
+ 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
+ 'scrapy.spidermiddlewares.referer.RefererMiddleware',
+ 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
+ 'scrapy.spidermiddlewares.depth.DepthMiddleware']
+2019-07-08 00:57:36 [scrapy.middleware] INFO: Enabled item pipelines:
+[]
+2019-07-08 00:57:36 [scrapy.core.engine] INFO: Spider opened
+2019-07-08 00:57:36 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
+2019-07-08 00:57:36 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
+2019-07-08 00:57:36 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://b.hatena.ne.jp/robots.txt> (referer: None)
+2019-07-08 00:57:40 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET https://b.hatena.ne.jp/entrylist/> from <GET http://b.hatena.ne.jp/entrylist/>
+2019-07-08 00:57:43 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://b.hatena.ne.jp/entrylist/> (referer: None)
+response:<200 https://b.hatena.ne.jp/entrylist/>
+url_more:None
+2019-07-08 00:57:43 [scrapy.core.engine] INFO: Closing spider (finished)
+2019-07-08 00:57:43 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
+{'downloader/request_bytes': 715,
+ 'downloader/request_count': 3,
+ 'downloader/request_method_count/GET': 3,
+ 'downloader/response_bytes': 43640,
+ 'downloader/response_count': 3,
+ 'downloader/response_status_count/200': 2,
+ 'downloader/response_status_count/301': 1,
+ 'finish_reason': 'finished',
+ 'finish_time': datetime.datetime(2019, 7, 7, 15, 57, 43, 302541),
+ 'log_count/DEBUG': 3,
+ 'log_count/INFO': 9,
+ 'response_received_count': 2,
+ 'robotstxt/request_count': 1,
+ 'robotstxt/response_count': 1,
+ 'robotstxt/response_status_count/200': 1,
+ 'scheduler/dequeued': 2,
+ 'scheduler/dequeued/memory': 2,
+ 'scheduler/enqueued': 2,
+ 'scheduler/enqueued/memory': 2,
+ 'start_time': datetime.datetime(2019, 7, 7, 15, 57, 36, 203946)}
+2019-07-08 00:57:43 [scrapy.core.engine] INFO: Spi
+der closed (finished)
+pagesの中身はOKBで何も書かれていない状態でした。