Q&A
seleniumを使って、下記のページのURLをスクレイピングしています。
navitime駐車場
URLの出力結果
['https://www.navitime.co.jp/poi?spot=60048-310001319', 'https://www.navitime.co.jp/poi?spot=60004-IPK0387', 'https://www.navitime.co.jp/poi?spot=60012-55055624', 'https://www.navitime.co.jp/poi?spot=60076-RKD00127', 'https://www.navitime.co.jp/poi?spot=60076-RKD00132', 'https://www.navitime.co.jp/poi?spot=60076-RKD00212', 'https://www.navitime.co.jp/poi?spot=60076-RKD00237', 'https://www.navitime.co.jp/poi?spot=60076-RKD00241', 'https://www.navitime.co.jp/poi?spot=60076-RKD00257', 'https://www.navitime.co.jp/poi?spot=60057-53155', 'https://www.navitime.co.jp/poi?spot=60057-53303', 'https://www.navitime.co.jp/poi?spot=60026-N03500', 'https://www.navitime.co.jp/poi?spot=60026-N05239', 'https://www.navitime.co.jp/poi?spot=60054-EP02772', 'https://www.navitime.co.jp/poi?spot=60034-26381', 'https://www.navitime.co.jp/poi?spot=60048-310001319', 'https://www.navitime.co.jp/poi?spot=60004-IPK0387', 'https://www.navitime.co.jp/poi?spot=60012-55055624', 'https://www.navitime.co.jp/poi?spot=60076-RKD00127', 'https://www.navitime.co.jp/poi?spot=60076-RKD00132', 'https://www.navitime.co.jp/poi?spot=60076-RKD00212', 'https://www.navitime.co.jp/poi?spot=60076-RKD00237', 'https://www.navitime.co.jp/poi?spot=60076-RKD00241', 'https://www.navitime.co.jp/poi?spot=60076-RKD00257', 'https://www.navitime.co.jp/poi?spot=60057-53155', 'https://www.navitime.co.jp/poi?spot=60057-53303', 'https://www.navitime.co.jp/poi?spot=60026-N03500', 'https://www.navitime.co.jp/poi?spot=60026-N05239', 'https://www.navitime.co.jp/poi?spot=60054-EP02772', 'https://www.navitime.co.jp/poi?spot=60034-26381', 'https://www.navitime.co.jp/poi?spot=60034-26647', 'https://www.navitime.co.jp/poi?spot=60034-26648', 'https://www.navitime.co.jp/poi?spot=60034-47297', 'https://www.navitime.co.jp/poi?spot=60034-49550', 'https://www.navitime.co.jp/poi?spot=60034-50996', 'https://www.navitime.co.jp/poi?spot=60034-50999', 'https://www.navitime.co.jp/poi?spot=60034-51107', 'https://www.navitime.co.jp/poi?spot=60034-51311', 'https://www.navitime.co.jp/poi?spot=60034-51316', 'https://www.navitime.co.jp/poi?spot=60034-51464', 'https://www.navitime.co.jp/poi?spot=60034-51465', 'https://www.navitime.co.jp/poi?spot=60034-51466', 'https://www.navitime.co.jp/poi?spot=60034-51467', 'https://www.navitime.co.jp/poi?spot=60034-52525', 'https://www.navitime.co.jp/poi?spot=60034-52526', 'https://www.navitime.co.jp/poi?spot=60034-26647', 'https://www.navitime.co.jp/poi?spot=60034-26648', 'https://www.navitime.co.jp/poi?spot=60034-47297', 'https://www.navitime.co.jp/poi?spot=60034-49550', 'https://www.navitime.co.jp/poi?spot=60034-50996', 'https://www.navitime.co.jp/poi?spot=60034-50999', 'https://www.navitime.co.jp/poi?spot=60034-51107', 'https://www.navitime.co.jp/poi?spot=60034-51311', 'https://www.navitime.co.jp/poi?spot=60034-51316', 'https://www.navitime.co.jp/poi?spot=60034-51464', 'https://www.navitime.co.jp/poi?spot=60034-51465', 'https://www.navitime.co.jp/poi?spot=60034-51466', 'https://www.navitime.co.jp/poi?spot=60034-51467', 'https://www.navitime.co.jp/poi?spot=60034-52525', 'https://www.navitime.co.jp/poi?spot=60034-52526', 'https://www.navitime.co.jp/poi?spot=60034-52527', 'https://www.navitime.co.jp/poi?spot=60034-52532']
症状
特にエラーないですが、最初のページ2回スクレイピングされますので、
URL2種で表示されます。
例:重複されるURL
https://www.navitime.co.jp/poi?spot=60048-310001319', 'https://www.navitime.co.jp/poi?spot=60004-IPK0387
実現したい内容
最初のページ1回だけスクレイピングしたいです。
もし次の数字のページがあればクリックしてまたURLをスクレイピングしたいです。
ページの構成によって次のボタンがない時がありますので、次のボタンをクリックする際に
数字を見ています。
→次のボタン
1 2 3 >
もし修正点が分かる方がいましたら、教えていただけると幸いです。
お手数ですが、よろしくお願い致します。
全体のコード
from multiprocessing.dummy import Condition from unicodedata import category from selenium.webdriver.common.keys import Keys import time from selenium.webdriver.chrome.options import Options from selenium.webdriver.support.select import Select from selenium import webdriver from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriver.common.keys import Keys from selenium.common.exceptions import NoSuchElementException import random import subprocess import openpyxl #headless background option = Options() #backgrand #option.add_argument('--headless')p #ログイン情報を維持するための設定 # 参考→https://rabbitfoot.xyz/selenium-chrome-profile PROFILE_PATH ="C:\\Users\\user\\AppData\\Local\\Google\\Chrome\\User Data\\" # 変更 option.add_argument('--user-data-dir=' + PROFILE_PATH) option.add_argument('--profile-directory=Profile 1') #Getting Default Adapter failed error message option.add_experimental_option('excludeSwitches', ['enable-logging']) # ブラウザを開く。 #options=option background driver = webdriver.Chrome(executable_path=ChromeDriverManager().install() ,options=option) #NAVITIME URL URL= "https://www.navitime.co.jp/category/0805/11324/" # URLを開く。 driver.get(URL) #画面サイズ大きくする driver.maximize_window() #待機時間 time.sleep(3) #初期値 i=1 new_list = [] #ループ while True: try: #全てのURLを取得 elements = driver.find_elements('xpath',"//a[@href]") #print(elements) #new_list = [] #### 空のリストを定義して初期化 for element in elements: list=element.get_attribute("href") #URLをリストとして作成 data_list = list.splitlines() #print(data_list) #URLに含んでいるpoi?spotのURLのみ 出力 l_in = [s for s in data_list if 'poi?spot' in s] #print(l_in) #IDを取得 if l_in: new_list.append(l_in[0]) #### ループ内ではリストに追加するだけ if i==1: print("何もしない") else: #次のページへクリック next_page_number = driver.find_element('xpath','//*[@id="body-left"]/ul[1]/li['+str(i)+']') next_page_number.click() #初期値+1 i=1+i #待機時間 time.sleep(3) except NoSuchElementException: break print(new_list)
回答1件
下記のような回答は推奨されていません。
このような回答には修正を依頼しましょう。
2023/01/25 02:24