回答率: 85.29%

質問するログイン新規登録

トップ Python 3.xに関する質問

Q&A

解決済

2回答

745閲覧

icrawlerのGreedyImageCrawlerの処理が一生終わらない

退会済みユーザー

総合スコア0

0グッド

0クリップ

投稿2022/08/15 16:52

0

0

前提

icrawlerのGreedyImageCrawlerで、あるWEBページの画像をすべて取得しているのですが
全ての画像を取得し終えたのにもかかわらず、処理が一生終わりません。

実現したいこと

すべての画像を取得し終えたら処理を終えさせたいです。

発生している問題・エラーメッセージ

以下のような文章が一生生成され続けます。
2022-08-16 01:43:44,953 - INFO - downloader - downloader-001 is waiting for new download tasks
2022-08-16 01:43:45,721 - INFO - parser - parser-001 is waiting for new page urls
2022-08-16 01:43:47,736 - INFO - parser - parser-001 is waiting for new page urls
2022-08-16 01:43:49,740 - INFO - parser - parser-001 is waiting for new page urls
2022-08-16 01:43:49,963 - INFO - downloader - downloader-001 is waiting for new download tasks
2022-08-16 01:43:51,742 - INFO - parser - parser-001 is waiting for new page urls
2022-08-16 01:43:53,746 - INFO - parser - parser-001 is waiting for new page urls
2022-08-16 01:43:54,965 - INFO - downloader - downloader-001 is waiting for new download tasks
2022-08-16 01:43:55,750 - INFO - parser - parser-001 is waiting for new page urls

該当のソースコード

Python
1from icrawler.builtin import GreedyImageCrawler
2
3greedy_crawler = GreedyImageCrawler(storage={'root_dir': 'a'})
4greedy_crawler.crawl(domains='https://ja.wikipedia.org/wiki/%E3%82%A4%E3%83%8C', max_num=0,min_size=None, max_size=None)

行動規範の内容に同意します

回答2件

0

ベストアンサー

これで正常な動作なのですね。
解答ありがとうございま！

投稿2022/08/16 03:19

退会済みユーザー

総合スコア0

退会済みユーザー

2022/08/16 03:20

ごめんなさい、初めて使うのでベストアンサーではなく自己解決になってしまいました。

行動規範の内容に同意します

0

以下のような文章が一生生成され続けます。
使ったことはありませんが、恐らくそれで正常な動きをしています。

対策：
max_num=1000のように、取得するデータ数を制限してください。

根拠：
一般にクローラーは「あるだけ根こそぎデータをくみ取る」ソフトです。
なので「どこまで」の機能で絞る設定があることが多いはずです。
この場合、max_num=0と察しました。

リファレンスには0の場合の挙動が書いてありませんでしたが、ソースコードをたどるとここに行きつきます。

つまるところ、max_num=0の場合、無限ループでデータを収集し続けます。

投稿2022/08/16 02:05

退会済みユーザー

総合スコア0

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.29%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ Python 3.xに関する質問

icrawlerのGreedyImageCrawlerの処理が一生終わらない