[経緯]
今回、こちらの記事を参考にサーバーレスなクローラーを作成しました。流れとしては、Scrapyを用いて、100個ずつURLとbody部分、時間についてS3内に格納していき、S3へのPUTを発火条件にLambdaでbody部分からスクレイピングを行うものになります。
[問題]
100~300で試したところきちんと動作したため、目的とするすべてのURL(4867個)に対して実施したところ約8000アイテムCSV内にスクレイピングしていました。S3の方はきちんと4867個のクローリングがなされていました。
Webで検索するとLambdaが重複実行することがあるという記事をみつけたので、重複実行したのかなと思い、8000アイテムの重複具合を確認したのですが、きれいに100個単位になっておらず、単に重複したわけでもない気もします。(重複するのであれば、綺麗にS3に格納している100個単位になると考えたため。)また、8000アイテムからユニークなものを抽出しても約3800ほどしか残らず、処理できていないURL、Bodyがあるようにも思いました。
[教えてもらいたいこと]
今回の自称について、他にどのような理由が考えられるか、また、どのようにすれば解決できるかご教示いただけますと幸いです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。