質問編集履歴

ハイパーリンクの設定を編集

2020/08/18 09:28

投稿

yoshi-fim

スコア3

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -2,7 +2,7 @@
 解決するまで実際に利用しているコードを載せます。
-https://github.com/yoshi-fim/crawler
+[https://github.com/yoshi-fim/crawler](https://github.com/yoshi-fim/crawler)

Githubを公開

2020/08/18 09:28

投稿

yoshi-fim

スコア3

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1,3 +1,23 @@
+----追記----
+解決するまで実際に利用しているコードを載せます。
+https://github.com/yoshi-fim/crawler
+crawler/hellowork/spiders/crawler.py
+のpage_parse関数内で問題が発生しております。
+※営利目的での利用ではないため、利用規約には抵触しておりません。
 表題の書き方がわかりにくくすみません。以下にコードも交えて問題の内容を書いていきます。

item変数に入る値の説明について大幅に書き直しました

2020/08/18 09:27

投稿

yoshi-fim

スコア3

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -52,7 +52,7 @@
 というように、記録しています。(実際に記述しているコードはかなり行数が多いため省いて書いております)
-この場合、metaから取得できるデータはparse関数で取得した
+この場合、next_parse関数のitem = response.meta['item']から取得できるデータは、parse関数で取得した
 ```python
@@ -60,7 +60,7 @@
 ```
-ようなものになるはずなのですが、これがまれに
+ようなものになる設計です。そして、最後のyield itemでは
 ```python
@@ -70,9 +70,59 @@
 ```
-のようなデータを取得してしまう場合があります。
+のようなデータをoutputする設計になっています。
+※'xxxxxxxxxxxxx'や'yyyyyyyyyyyyyyy'の値はクローリング対象ページのデータによって異なります。
+**問題になっているのは、next_parse関数のitem = response.meta['item']でitemを取得しようとすると、前回のnext_parse関数実行時にyieldしたitemデータを取得してしまう、ということです。**
+itemのデータがおかしいことを調べるために
+```python
+def next_parse(self, response):
+   item = response.meta['item']
+   import pdb; pdb.set_trace()
+   item['yyy'] = response.css(.........
+   yield item
+```
-調べてみたところ、前回のnext_parse関数実行時にyieldしたitemの内容と全く同じものでした。
+上記のようにpdb.set_trace()を入れて、item変数の中身を確認しました。
+この確認により、
+```python
+item = {'xxx': 'xxxxxxxxxxxxxxx'}
+```
+という感じで正常にitemが格納されていることもあれば、
+```python
+item = {'xxx': 'xxxxxxxxxxxxxx',
+        'yyy': 'yyyyyyyyyyyyyy'}
+```
+という感じで、この時点では取得できているはずのない'yyy'の値が入っている場合があることが判明しました。
 今まで何度かScrapyコードを書いてきましたが、こういったことは初めてでした。

parse関数の最後にyieldを付与した

2020/08/18 08:15

投稿

yoshi-fim

スコア3

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -30,7 +30,7 @@
      item['xxx'] = response.css(.........
-     scrapy.Request(next_url, callback=self.next_parse, meta={'item': item}
+     yield scrapy.Request(next_url, callback=self.next_parse, meta={'item': item}