質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.49%

scrapy 複数URLをスクレイピングした時、データを順番に保存していきたい

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 2,002

score 221

scrapyで複数URLを指定した時、順番にデータが取得できました。
しかし、DBに保存する際にデータが上書きされてしまって、最後に取得したデータのみがURLの数だけ保存されてしまいます。

想像した理想の値 (urlのみをスクレイピングした場合)

[{'url': 'https://www.python.org/'},
 {'url': 'https://www.python.org/downloads/'},
 {'url': 'https://docs.python.org/3'}
]


実際にDBに保存された値

[
{'url': 'https://docs.python.org/3/'}, 
{'url': 'https://docs.python.org/3/'}, 
{'url': 'https://docs.python.org/3/'}
]


pipelines.pyのprocess_item()での処理だと思うのですが上手く処理出来ずにいます。
この複数のURLは検索結果のurlなので順番を維持したまま、あるいは順位づけして順番通り取り出せる様にしたいです。

windows10
python3.6.5
scrapyd 1.2
scrapy 1.5

# blogspider.py

import scrapy
from scrapy import Request
from apps.main_app.models import SiteData
from collections import OrderedDict
"""
$ scrapy crawl blogspider
ファイルでスパイダーを動かすコマンド
"""


class BlogSpider(scrapy.Spider):
    name = 'blogspider'  # Spiderの名前。これが無いと動かない

    def __init__(self, *args, **kwargs):
        self.domain = kwargs.get('domain')
        self.start_urls = ['https://www.python.org/',
                          'https://www.python.org/downloads/',
                          'https://docs.python.org/',
                          ]
        self.item = OrderedDict()

        super(BlogSpider, self).__init__(*args, **kwargs)



    def start_requests(self):
        for url in self.start_urls:
            yield Request(url=url, callback=self.parse)

    def parse(self, response):
        item = self.item
        item['url'] = response.url
        yield item
# pipelines.py
from apps.main_app.models import SiteData
import json


class ScrapyAppPipeline(object):
    def __init__(self, unique_id, *args, **kwargs):
        self.count_rank = 0
        self.unique_id = unique_id
        self.items = []
        self.dict = {}

    @classmethod
    def from_crawler(cls, crawler):
        # このクラスメソッドが呼び出されてからパイプラインインスタンスを作成する。
        # 引数にクラスがあるので、クラス変数にアクセスできる
        return cls(
            unique_id=crawler.settings.get('unique_id')  # djangoのviewsを通ってくる
        )

    def close_spider(self, spider):
        # spiderが閉じた時呼び出される itemsをdjangoモデルに保存する
        site_data = SiteData.objects.get(pk=self.unique_id)
        site_data.site_data = json.dumps(self.items)
        site_data.save()

    def process_item(self, item, spider,):
        """ここでスパイダーからのitemをitemsにまとめclose_spiderでsaveへ
            itemからself.itemsに。そのままだとurlsの回数分上書きされてしまう"""

        self.items.append(item)
        print(self.items)
        return item


process_item内のprint文の結果

[OrderedDict([('url', 'https://www.python.org/')])]
[OrderedDict([('url', 'https://www.python.org/downloads/')]), OrderedDict([('url', 'https://www.python.org/downloads/')])]
[OrderedDict([('url', 'https://docs.python.org/3')]), OrderedDict([('url', 'https://docs.python.org/3')]), OrderedDict([('url', 'https://docs.python.org/3')])]


データは取得出来ているのですがURL回数分上書き+追加しています。
上書きせず追加していきたいのですがどのようにすればいいでしょうか?よろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

check解決した方法

0

>>リストに複数のdictをappendしようとすると下のように書いた場合、追加したすべてのdict型の変数が同じ値になる。
ということでしたので

self.items.append(item.copy())
とcopy()を追加して対応したところ上書きされることなく追加できました。ありがとうございました。

Pythonのリストにdict型の変数をappendすると変数がポインタ的に振る舞う

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.49%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る