scrapyで複数URLを指定した時、順番にデータが取得できました。
しかし、DBに保存する際にデータが上書きされてしまって、最後に取得したデータのみがURLの数だけ保存されてしまいます。
想像した理想の値 (urlのみをスクレイピングした場合)
[{'url': 'https://www.python.org/'}, {'url': 'https://www.python.org/downloads/'}, {'url': 'https://docs.python.org/3'} ]
実際にDBに保存された値
[ {'url': 'https://docs.python.org/3/'}, {'url': 'https://docs.python.org/3/'}, {'url': 'https://docs.python.org/3/'} ]
pipelines.pyのprocess_item()での処理だと思うのですが上手く処理出来ずにいます。
この複数のURLは検索結果のurlなので順番を維持したまま、あるいは順位づけして順番通り取り出せる様にしたいです。
windows10
python3.6.5
scrapyd 1.2
scrapy 1.5
# blogspider.py import scrapy from scrapy import Request from apps.main_app.models import SiteData from collections import OrderedDict """ $ scrapy crawl blogspider ファイルでスパイダーを動かすコマンド """ class BlogSpider(scrapy.Spider): name = 'blogspider' # Spiderの名前。これが無いと動かない def __init__(self, *args, **kwargs): self.domain = kwargs.get('domain') self.start_urls = ['https://www.python.org/', 'https://www.python.org/downloads/', 'https://docs.python.org/', ] self.item = OrderedDict() super(BlogSpider, self).__init__(*args, **kwargs) def start_requests(self): for url in self.start_urls: yield Request(url=url, callback=self.parse) def parse(self, response): item = self.item item['url'] = response.url yield item
# pipelines.py from apps.main_app.models import SiteData import json class ScrapyAppPipeline(object): def __init__(self, unique_id, *args, **kwargs): self.count_rank = 0 self.unique_id = unique_id self.items = [] self.dict = {} @classmethod def from_crawler(cls, crawler): # このクラスメソッドが呼び出されてからパイプラインインスタンスを作成する。 # 引数にクラスがあるので、クラス変数にアクセスできる return cls( unique_id=crawler.settings.get('unique_id') # djangoのviewsを通ってくる ) def close_spider(self, spider): # spiderが閉じた時呼び出される itemsをdjangoモデルに保存する site_data = SiteData.objects.get(pk=self.unique_id) site_data.site_data = json.dumps(self.items) site_data.save() def process_item(self, item, spider,): """ここでスパイダーからのitemをitemsにまとめclose_spiderでsaveへ itemからself.itemsに。そのままだとurlsの回数分上書きされてしまう""" self.items.append(item) print(self.items) return item
process_item内のprint文の結果
[OrderedDict([('url', 'https://www.python.org/')])] [OrderedDict([('url', 'https://www.python.org/downloads/')]), OrderedDict([('url', 'https://www.python.org/downloads/')])] [OrderedDict([('url', 'https://docs.python.org/3')]), OrderedDict([('url', 'https://docs.python.org/3')]), OrderedDict([('url', 'https://docs.python.org/3')])]
データは取得出来ているのですがURL回数分上書き+追加しています。
上書きせず追加していきたいのですがどのようにすればいいでしょうか?よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。