画像スクレイピングを行う際の、適切なアクセスの間隔とそのタイミング（コードのどの部分に入れたらよいか）

疑問点

あるホームページで公開されている複数の画像を自動でダウンロードするコードを作成し、動作は問題ありません。

一方ネットや書籍を見ると、スクレイピング先に負担をかけないためにアクセスするごとにtime.sleep()を用いて何秒か間隔をあけることが必要とありました。
そこで、抽出したうちの１つのurlにアクセスして画像を保存し、次のurlにアクセスする前にtime.sleep(1)として間隔をあけるようにしました（下記ソースコードの最後）。
このタイミングは問題ないでしょうか。加えて、下記コード５行目のforループ中でlinks変数から.getを用いて画像urlを取得するタイミングでも入れたほうがよいでしょうか
（ホームページへのアクセスが発生するのはrequest.get()でhtmlを取得した時で、links.get("href")でresponse変数に代入したローカル？のhtmlデータからurlを取り出す時には発生しないと考えているので、入れる必要はないと考えています）。

また、本コードではtime.sleep()の間隔を１秒としていますが（ネットで見かけるコードではそうしていることが多かったため）、より適切な間隔があればご教示いただきたいです。

以上よろしくお願いします。

python
1#対象のurlからHTMLを取得し、画像のurlを抽出、urlリストに格納
2   response = requests.get("対象のurl")
3   soup = BeautifulSoup(response.content,'lxml')
4   links = soup.findAll('a',href=re.compile('〇〇〇'))
5
6   for link in links:
7      url = link.get('href')
8      url_list += [url]
9      #time.sleep(1)←このタイミングでもtime.sleep()を入れるべきでしょうか。
10
11#抽出したurlにアクセスして画像を保存
12   length = len(url_list)
13   l_list = range(0,length)
14
15   for r in l_list:
16      nem = urllib.request.urlopen(url_list[r]).read()
17      with open("#画像の保存先", "wb") as f:
18         f.write(nem)
19      time.sleep(1)
20

行動規範の内容に同意します

回答1件

ベストアンサー

（ホームページへのアクセスが発生するのはrequest.get()でhtmlを取得した時で、links.get("href")でresponse変数に代入したローカル？のhtmlデータからurlを取り出す時には発生しないと考えているので、入れる必要はないと考えています）。

その考え方で良いと思います。

ただし下のforの中でリクエストが飛ぶので、その間に一回は待つようにした方が良いでしょう（間に書くか、一番下のsleepをブロックの中の一番上に移すなど）。

また、本コードではtime.sleep()の間隔を１秒としていますが（ネットで見かけるコードではそうしていることが多かったため）、より適切な間隔があればご教示いただきたいです。

「お作法」なので決まった数字はありません。常識的な範囲で。

まず法律上の問題をクリアできるかと（けっきょくなんともいえないことも多いように思いますが）、スクレイピング行為自体が相手に嫌がられていないか（サービスによっては規約で禁止されていることもあるし、そうでなくても自動アクセスを弾くようなサイトもあるのでそういうときは遠慮するとか）が一番の関心事なので、その点は別途ご確認お願いします。

投稿2019/10/12 15:03