【Python】スクレイピングでのforの使い方に困ってます

■使用言語とライブラリ

・Python
・Google Colaboratory

■本文

現在Python最速データ収集術（技術評論社出版）という本で、スクレイピングの学習をしているのですが、
その中の、商品が一覧ページにのっているようなサイトの各商品情報をスクレイピングするときに出てくるforの使い方がわからず、困っております。
※本でいうと、P181のリスト4.2.1_2の部分になります。

以下コードの「for i in range(9):」という部分で、コード内にiがない中で、
range(9)の範囲で繰り返し処理をしている理由が理解できておりません。

一覧ページの各商品ごとで同じ処理をやるなら、
「for elem in soup.find_all("div", class_ = "col-md-2"):」だけでよく、
「for i in range(9):」は不要ではないかと考えております。

■本に記載のコード

#ライブラリのインポート
import requests
from bs4 import BeautifulSoup
import datetime
import csv
import os
import shutil
from urllib.parse import urljoin
from time import sleep


url = "https://python-data-collection.herokuapp.com/mens-fashion"

#アイテムのデータを格納するための変数を作る
item_list = []

#1ページずつ一覧ページでデータ取得
for i in range(9):
  response = requests.get(url)
  soup = BeautifulSoup(response.text, "html.parser")

  for elem in soup.find_all("div", class_ = "col-md-2"):
    item_image_url = urljoin(url, elem.find("img")["src"])
    item_name = elem.find("div", class_ = "card-body").text.split("/n")[2]
    item_brand = elem.find("div", class_ = "card-body").text.split("/n")[3]
    item_price = int(elem.find("div", class_ = "card-body").text.split("/n")[4].replace(",", "")[1:])

    item_list.append([item_name, item_image_url, item_brand, item_price])

  #次のページのリンクをたどり、なければ処理終了
  if soup.select("a:contains('Next')"):
    url = urljoin(url, soup.select("a:contains('Next')")[0]["href"])
    sleep(1)
  else:
    break


#人気商品の画像情報を集める
csv_header = ["商品名", "画像URL", "ブランド", "価格"]
csv_date = datetime.datetime.today().strftime("%Y%m%d%H")
csv_file_name = "mens_fashion_" + csv_date + ".csv"

with open(csv_file_name, "w", errors = "ignore") as file:
  writer = csv.writer(file, lineterminator = "/n")
  writer.writerow(csv_header)
  writer.writerows(item_list)


path = "【Google Drive上のパスを入れてます】"

for item in item_list:
  file_name = item[0] + "." + item[1].split(".")[-1]
  image_path = os.path.join(path, file_name)
  response = requests.get(item[1], stream = True)

  with open(image_path, "wb") as file:
    shutil.copyfileobj(response.raw, file)

こちらにつきまして、おわかりになる方がいらっしゃれば、アドバイスいただけますと幸いです。

恐れ入りますが、よろしくお願いいたします。

Zuishin

2022/07/13 23:28

不要なところを外して同じ結果になることは確かめましたか？まだならそれを確かめ、どこがどう違うのかを追記してみてください。追記するまでもなく解決したなら自己解決で。

行動規範の内容に同意します

回答2件

ベストアンサー

問題のページというか記事が9ページで構成されているようですね。なのでfor i in range(9):で最大9回まわるようにしてｆｏｒ文の末尾で次へボタンを探しなければ全ページぶん読み込んだとして切り上げるようになっています。
記事に10ページ目以降ができても9ページ処理したら止まってしまうので無限ループにして次へボタンがなくなったら止めるのが良いとは思いますが。

投稿2022/07/14 01:22