Scrapyをキャッシュから実行

前提・実現したいこと

あるページの記事をクロールしている。
Scrapyでキャッシュからcrawlしたが、途中で処理が止まる
思い当たる原因などがあればご教示願いたいです。

発生している問題・エラーメッセージ

エラーなどは発生しておらず、途中のurlをスクレイプした後に急に処理が止まる（実行中のまま）

試したこと

scrapyコマンドで、project作成とspider作成
コードを足す(ここで HTTPCACHE_ENABLED = True 設定)
実行→正常終了
コード編集して再実行→停止
コード戻して再実行→停止

補足情報（FW/ツールのバージョンなど）

OS: Ubuntu20.04.3 LTS

quickquip

2021/12/02 01:45 編集

> Scrapyでキャッシュからcrawlしたが「HTTPCACHE_ENABLED = True を設定して、一度クロールしたあとにもう一回実行した」という意味で言ってますか? 意味を翻訳したり、意図を言うんじゃなくて「やったこと」を書いて欲しいです。

doro

2021/12/02 01:46

コメントありがとうございます。設定したというわけではなく（設定はすでにしてある）１度crawlした後に、コードを編集したので再度crawlしたというシチュエーションになります。

quickquip

2021/12/02 01:47

質問に書いて欲しいです。編集できます。

quickquip

2021/12/02 01:48 編集

1度目は完全にうまくいって、コードを編集して失敗したのなら、編集したコードが原因以外のどんな回答を期待していますか? そのコードを隠されたなら、他にどんな回答ができると思いますか?

doro

2021/12/02 01:52

コードの編集は関係なくcrawlは停止します。（コードの編集にかかわらず２度目のcrawlで停止する） scrapyのbugとしてキャッシュが壊れた状態で保存されるなどの既存の問題が確認されているなどの事実があればご教示願いたいと思った次第です。

quickquip

2021/12/02 02:18 編集

だいたいの状況と質問の趣旨は了解しました。 scrapyコマンドで、project作成とspider作成何かコードを足す(ここで HTTPCACHE_ENABLED = True 設定) 実行→正常終了コード編集して再実行→停止コード戻して再実行→停止かなと想像しました。再度ですが質問は「やったこと」を書いた方がいいですよ。あと情報はこの欄ではなくて質問に書きましょう。ちょっと気になったのは、同じ手順を繰り返して再現性はあるのでしょうか、という点でした。

doro

2021/12/02 02:24

質問文更新しました。ありがとうございます。再現性については、コードが中断されるというわけではないので、何度も試したというわけではないですが、 * １度目は実行が停止してから6時間待ったが、再開しない * ２度目は現在実行中だが、処理が１時間ほど停止しているという状況です。

doro

2021/12/02 02:27

ここで、実行が停止というのは、見た目上（コマンドライン上）なので、処理内部が停止しているかまでは確認できていないです。また、補足としてOSはUbuntu20.04.3 LTSです。