BeautifulSoup4でリクエストが発行されるタイミングは？

やりたいこと

お世話になっております。
現在スクレイピングを検討していて、Qiitaの記事などで多くあるように、
beautifulsoup4 と　requests
でやろうとしています。

今のコードはこんな感じでスクレイピングの関数を作っていて、

python
1def scraping(url):
2  html = requests.get(url)
3  soup = BeautifulSoup(html.text, "html.parser")
4
5  results_title = soup.find("table", id="lineup").find_all("h2", class_="title")
6  sleep(1)
7  results_company = soup.find("table", id="lineup").find_all("h3", class_="company")
8  sleep(1)
9  results_span = soup.find("table", id="lineup").select("div > span")
10  sleep(1)
11  results_link = soup.find("table", id="lineup").select("h2 > a")
12  sleep(1)

さらにそれを使ったmain()という関数を記述しています。

Python
1def main(url):
2  scrayping(url)
3  
4  # 以下出力したり、リストにしたりの処理
5

聞きたいこと

今回ご教授願いたいのは、BeautifulSoup4が（requestsが？）どのタイミングで相手のwebサイトにアクセスしているかという事です。

多くの記事では相手側のサーバーに負荷をかけないように、sleep()等で待機時間を設けるべきと書いてありますが、どの処理の箇所に記述するのが適切なのかわかっていません。
現在のコードで合っているのでしょうか？

・アクセスするのはsoupオブジェクトを使って検索する度になのか
・最初にrequests.get()を使うときだけなのか
・それ以外なのか

教えていただければ幸いです。
根本的なことでもうしわけありません。

現在の理解ではsoup.find()などを使う度にsleep()が必要なのだ思っておりますので、このプログラムでは実行するごとに合計4回アクセスするのだと思っております。
よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

requests.get()を呼び出したときだけです。
BeautifulSoupはHTMLをパースする機能は持っていますが、HTTP通信する機能は持っていません。

投稿2019/05/25 06:05

can110

総合スコア38254

hajifu

2019/05/25 10:32

ありがとうございます！ということは、この場合scraping()が実行された時に一度だけアクセスされるということでよろしかったでしょうか？その場合sleep()は今ある場所ではなく関数の最後などに入れることになるのでしょうか？

can110

2019/05/25 10:39

はい。getのたびでよいのでscraping関数の最後だけでよいかと思います。

hajifu

2019/05/25 16:20

ご丁寧にありがとうございました！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！