質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

2回答

623閲覧

icrawlerのGreedyImageCrawlerの処理が一生終わらない

aaaa____aaaa

総合スコア10

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2022/08/15 16:52

前提

icrawlerのGreedyImageCrawlerで、あるWEBページの画像をすべて取得しているのですが
全ての画像を取得し終えたのにもかかわらず、処理が一生終わりません。

実現したいこと

すべての画像を取得し終えたら処理を終えさせたいです。

発生している問題・エラーメッセージ

以下のような文章が一生生成され続けます。
2022-08-16 01:43:44,953 - INFO - downloader - downloader-001 is waiting for new download tasks
2022-08-16 01:43:45,721 - INFO - parser - parser-001 is waiting for new page urls
2022-08-16 01:43:47,736 - INFO - parser - parser-001 is waiting for new page urls
2022-08-16 01:43:49,740 - INFO - parser - parser-001 is waiting for new page urls
2022-08-16 01:43:49,963 - INFO - downloader - downloader-001 is waiting for new download tasks
2022-08-16 01:43:51,742 - INFO - parser - parser-001 is waiting for new page urls
2022-08-16 01:43:53,746 - INFO - parser - parser-001 is waiting for new page urls
2022-08-16 01:43:54,965 - INFO - downloader - downloader-001 is waiting for new download tasks
2022-08-16 01:43:55,750 - INFO - parser - parser-001 is waiting for new page urls

該当のソースコード

Python

1from icrawler.builtin import GreedyImageCrawler 2 3greedy_crawler = GreedyImageCrawler(storage={'root_dir': 'a'}) 4greedy_crawler.crawl(domains='https://ja.wikipedia.org/wiki/%E3%82%A4%E3%83%8C', max_num=0,min_size=None, max_size=None)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

自己解決

これで正常な動作なのですね。
解答ありがとうございま!

投稿2022/08/16 03:19

aaaa____aaaa

総合スコア10

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

aaaa____aaaa

2022/08/16 03:20

ごめんなさい、初めて使うのでベストアンサーではなく自己解決になってしまいました。
guest

0

以下のような文章が一生生成され続けます。

使ったことはありませんが、恐らくそれで正常な動きをしています。

対策:
max_num=1000のように、取得するデータ数を制限してください。

根拠:
一般にクローラーは「あるだけ根こそぎデータをくみ取る」ソフトです。
なので「どこまで」の機能で絞る設定があることが多いはずです。
この場合、max_num=0と察しました。

リファレンスには0の場合の挙動が書いてありませんでしたが、ソースコードをたどるとここに行きつきます。

つまるところ、max_num=0の場合、無限ループでデータを収集し続けます

投稿2022/08/16 02:05

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問