実現したいこと
①こちら(https://ramendb.supleks.jp/search?page=1&order=point&station-id=0&tags=3)のURLから各店舗のURLをスクレイピングする。
②各店舗のURLにアクセスし、店舗名、住所、開店日の情報を抽出する。
③終わったら次の20件のページに遷移し、①→②をする。
④抽出した情報をCSVに保存する。
知りたい事
h4タグ内のhref属性のみ抽出し、絶対URLに変換したいが取得したいhref属性が取得されてしまいます。
自分が取得したいのは各店舗のURLです。
どのようにタグを指定すればよいのでしょうか。
自分で書いたコード(途中)
import requests from bs4 import BeautifulSoup from urllib.parse import urljoin shop_list_url = 'https://ramendb.supleks.jp/search?q=&state=&order=point&station-id=&tag%5B%5D=3&type=' ua = "" #大元URL base_url = 'https://ramendb.supleks.jp' #検索URL shop_url = base_url + "/search?page=1&order=point&station-id=0&tags=3" page = requests.get(shop_url,headers={"User-Agent" : ua}) soup = BeautifulSoup(page.text,"html.parser") for a in soup.select("h4 a"): shop_url_list = urljoin(shop_url,a.get("href")) print(shop_url_list)
返し
print(shop_url_list) https://ramendb.supleks.jp/rank/hot-shop
試したコード
for a in soup.select("#searched > h4 > a"): shop_url_list = urljoin(shop_url,a.get("href"))
至らぬ点が多いと思いますが、宜しくお願い致します。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/06/01 13:33