質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Scrapy

Scrapyは、Pythonで開発されたオープンソースソフトウェアです。スクレイピングという、Webサービスから必要な情報を取り出したり自動操作をしたりする技術を使うものです。

Q&A

解決済

1回答

1509閲覧

scrapy 複数URLをスクレイピングした時、データを順番に保存していきたい

grilled_python

総合スコア237

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Scrapy

Scrapyは、Pythonで開発されたオープンソースソフトウェアです。スクレイピングという、Webサービスから必要な情報を取り出したり自動操作をしたりする技術を使うものです。

0グッド

0クリップ

投稿2018/09/03 04:48

編集2018/09/03 05:01

scrapyで複数URLを指定した時、順番にデータが取得できました。
しかし、DBに保存する際にデータが上書きされてしまって、最後に取得したデータのみがURLの数だけ保存されてしまいます。

想像した理想の値 (urlのみをスクレイピングした場合)

[{'url': 'https://www.python.org/'}, {'url': 'https://www.python.org/downloads/'}, {'url': 'https://docs.python.org/3'} ]

実際にDBに保存された値

[ {'url': 'https://docs.python.org/3/'}, {'url': 'https://docs.python.org/3/'}, {'url': 'https://docs.python.org/3/'} ]

pipelines.pyのprocess_item()での処理だと思うのですが上手く処理出来ずにいます。
この複数のURLは検索結果のurlなので順番を維持したまま、あるいは順位づけして順番通り取り出せる様にしたいです。

windows10
python3.6.5
scrapyd 1.2
scrapy 1.5

# blogspider.py import scrapy from scrapy import Request from apps.main_app.models import SiteData from collections import OrderedDict """ $ scrapy crawl blogspider ファイルでスパイダーを動かすコマンド """ class BlogSpider(scrapy.Spider): name = 'blogspider' # Spiderの名前。これが無いと動かない def __init__(self, *args, **kwargs): self.domain = kwargs.get('domain') self.start_urls = ['https://www.python.org/', 'https://www.python.org/downloads/', 'https://docs.python.org/', ] self.item = OrderedDict() super(BlogSpider, self).__init__(*args, **kwargs) def start_requests(self): for url in self.start_urls: yield Request(url=url, callback=self.parse) def parse(self, response): item = self.item item['url'] = response.url yield item
# pipelines.py from apps.main_app.models import SiteData import json class ScrapyAppPipeline(object): def __init__(self, unique_id, *args, **kwargs): self.count_rank = 0 self.unique_id = unique_id self.items = [] self.dict = {} @classmethod def from_crawler(cls, crawler): # このクラスメソッドが呼び出されてからパイプラインインスタンスを作成する。 # 引数にクラスがあるので、クラス変数にアクセスできる return cls( unique_id=crawler.settings.get('unique_id') # djangoのviewsを通ってくる ) def close_spider(self, spider): # spiderが閉じた時呼び出される itemsをdjangoモデルに保存する site_data = SiteData.objects.get(pk=self.unique_id) site_data.site_data = json.dumps(self.items) site_data.save() def process_item(self, item, spider,): """ここでスパイダーからのitemをitemsにまとめclose_spiderでsaveへ itemからself.itemsに。そのままだとurlsの回数分上書きされてしまう""" self.items.append(item) print(self.items) return item

process_item内のprint文の結果

[OrderedDict([('url', 'https://www.python.org/')])] [OrderedDict([('url', 'https://www.python.org/downloads/')]), OrderedDict([('url', 'https://www.python.org/downloads/')])] [OrderedDict([('url', 'https://docs.python.org/3')]), OrderedDict([('url', 'https://docs.python.org/3')]), OrderedDict([('url', 'https://docs.python.org/3')])]

データは取得出来ているのですがURL回数分上書き+追加しています。
上書きせず追加していきたいのですがどのようにすればいいでしょうか?よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

自己解決

リストに複数のdictをappendしようとすると下のように書いた場合、追加したすべてのdict型の変数が同じ値になる。

ということでしたので

self.items.append(item.copy())
とcopy()を追加して対応したところ上書きされることなく追加できました。ありがとうございました。

Pythonのリストにdict型の変数をappendすると変数がポインタ的に振る舞う

投稿2018/09/03 05:38

編集2018/09/03 05:39
grilled_python

総合スコア237

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問