Python
1import pandas as pd 2import requests 3from bs4 import BeautifulSoup 4from selenium import webdriver 5import time 6 7driver = webdriver.Chrome() 8driver.get() 9time.sleep(5) 10 11url = "https://www.ubereats.com/jp/kyoto/food-delivery/%E3%83%8F%E3%83%BC%E3%83%88%E3%83%AD%E3%83%83%E3%82%AF%E3%82%AB%E3%83%95%E3%82%A7-%E4%BA%AC%E9%83%BD%E5%BA%97-hard-rock-cafe-kyoto/U1gYCSr9QfyIVEwcA2U5cQ?pl=JTdCJTIyYWRkcmVzcyUyMiUzQSUyMiVFNCVCQSVBQyVFOSU4MyVCRCVFNSVCOCU4MiUyMiUyQyUyMnJlZmVyZW5jZSUyMiUzQSUyMkNoSUo4Y004emRhb0FXQVJQUjI3YXpZZGxzQSUyMiUyQyUyMnJlZmVyZW5jZVR5cGUlMjIlM0ElMjJnb29nbGVfcGxhY2VzJTIyJTJDJTIybGF0aXR1ZGUlMjIlM0EzNS4wMTE1NjQlMkMlMjJsb25naXR1ZGUlMjIlM0ExMzUuNzY4MTQ4OSU3RA%3D%3D" 12 13driver.get(url) 14time.sleep(5) 15 16soup = BeautifulSoup(driver.page_source,"html.parser") 17 18genre = soup.find(class_="bw bx by eg") 19genre_name = genre.string 20 21store_address = soup.find(class_='b8 b9 ba as em') 22address = store_address.string 23 24score = soup.find(class_="bw bx by eg au aw") 25scores = score.get_text() 26 27work_hours = soup.find(class_="en em") 28hours = work_hours.get_text() 29 30m = soup.find_all(class_="g0 g1 g2 aj") 31m_list = str(len([menu.get_text() for menu in m])) 32 33d = soup.find_all(class_="bw bx by fz") 34d_list = str(len([menu.get_text() for menu in d])) 35 36Data = pd.DataFrame( 37 { 38 'ジャンル': [genre_name], 39 '住所': [address], 40 '評価(評価数)': [scores], 41 '営業時間': [hours], 42 'メニュー数': [m_list], 43 '説明記載メニュー数': [d_list] 44 }) 45 46Data.to_csv('data.csv')
自分がわからない点は、pandasのDataFrameに各店舗のページから取得した「ジャンル、住所、評価(評価数)、営業時間、メニュー数、説明記載メニュー数」の要素を後から逐一追加していくことは可能なのかどうか、また可能ならばどのようなコードを書けば良いのか、です。
イメージとしては、各項目の下に取得した情報を追加していくような感じです。
下記のコードは今書いている途中のコードであり未完成のものです。他に良いコードがありましたら全然変えてもらって大丈夫です。
Python
1for i in URL_list(): 2 driver.get(i) 3 time.sleep(5) 4 soup = BeautifulSoup(driver.page_source,"html.parser") 5 6 genre = soup.find(class_="bw bx by eb") 7 genre_name = genre.string 8 9 store_address = soup.find(class_='b8 b9 ba as eh') 10 address = store_address.string 11 12 score = soup.find(class_="bw bx by eb au aw") 13 scores = score.get_text() 14 15 work_hours = soup.find(class_="ei eh") 16 hours = work_hours.get_text() 17 18 m = soup.find_all(class_="g2 g3 g4 aj") 19 m_list = str(len([menu.get_text() for menu in m])) 20 21 d = soup.find_all(class_="bw bx by ec") 22 d_list = str(len([menu.get_text() for menu in d])) 23 24 l_Data = pd.DataFrame( 25 { 26 'ジャンル': [genre_name], 27 '住所': [address], 28 '評価(評価数)': [scores], 29 '営業時間': [hours], 30 'メニュー数': [m_list], 31 '説明記載メニュー数': [d_list] 32 })
店舗のURLは全て取得しているので、URL_listから各店舗のURLを呼び出しdriver.get()
で各店舗のページに飛び、そこから「ジャンル、住所、評価(評価数)、営業時間、メニュー数、説明記載メニュー数」を取得してDataFrameに追加していく、そしてfor構文でループを作り全ての店舗の情報を取得するという感じで進めて行こうかと思いましたがここから先どうしていいかわからなくなりました。
ご教授願います。
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。