質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

723閲覧

Pythonでselenium 次のページをクリック

fideo

総合スコア55

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2023/01/21 12:46

seleniumを使って、下記のページのURLをスクレイピングしています。
navitime駐車場

URLの出力結果

['https://www.navitime.co.jp/poi?spot=60048-310001319', 'https://www.navitime.co.jp/poi?spot=60004-IPK0387', 'https://www.navitime.co.jp/poi?spot=60012-55055624', 'https://www.navitime.co.jp/poi?spot=60076-RKD00127', 'https://www.navitime.co.jp/poi?spot=60076-RKD00132', 'https://www.navitime.co.jp/poi?spot=60076-RKD00212', 'https://www.navitime.co.jp/poi?spot=60076-RKD00237', 'https://www.navitime.co.jp/poi?spot=60076-RKD00241', 'https://www.navitime.co.jp/poi?spot=60076-RKD00257', 'https://www.navitime.co.jp/poi?spot=60057-53155', 'https://www.navitime.co.jp/poi?spot=60057-53303', 'https://www.navitime.co.jp/poi?spot=60026-N03500', 'https://www.navitime.co.jp/poi?spot=60026-N05239', 'https://www.navitime.co.jp/poi?spot=60054-EP02772', 'https://www.navitime.co.jp/poi?spot=60034-26381', 'https://www.navitime.co.jp/poi?spot=60048-310001319', 'https://www.navitime.co.jp/poi?spot=60004-IPK0387', 'https://www.navitime.co.jp/poi?spot=60012-55055624', 'https://www.navitime.co.jp/poi?spot=60076-RKD00127', 'https://www.navitime.co.jp/poi?spot=60076-RKD00132', 'https://www.navitime.co.jp/poi?spot=60076-RKD00212', 'https://www.navitime.co.jp/poi?spot=60076-RKD00237', 'https://www.navitime.co.jp/poi?spot=60076-RKD00241', 'https://www.navitime.co.jp/poi?spot=60076-RKD00257', 'https://www.navitime.co.jp/poi?spot=60057-53155', 'https://www.navitime.co.jp/poi?spot=60057-53303', 'https://www.navitime.co.jp/poi?spot=60026-N03500', 'https://www.navitime.co.jp/poi?spot=60026-N05239', 'https://www.navitime.co.jp/poi?spot=60054-EP02772', 'https://www.navitime.co.jp/poi?spot=60034-26381', 'https://www.navitime.co.jp/poi?spot=60034-26647', 'https://www.navitime.co.jp/poi?spot=60034-26648', 'https://www.navitime.co.jp/poi?spot=60034-47297', 'https://www.navitime.co.jp/poi?spot=60034-49550', 'https://www.navitime.co.jp/poi?spot=60034-50996', 'https://www.navitime.co.jp/poi?spot=60034-50999', 'https://www.navitime.co.jp/poi?spot=60034-51107', 'https://www.navitime.co.jp/poi?spot=60034-51311', 'https://www.navitime.co.jp/poi?spot=60034-51316', 'https://www.navitime.co.jp/poi?spot=60034-51464', 'https://www.navitime.co.jp/poi?spot=60034-51465', 'https://www.navitime.co.jp/poi?spot=60034-51466', 'https://www.navitime.co.jp/poi?spot=60034-51467', 'https://www.navitime.co.jp/poi?spot=60034-52525', 'https://www.navitime.co.jp/poi?spot=60034-52526', 'https://www.navitime.co.jp/poi?spot=60034-26647', 'https://www.navitime.co.jp/poi?spot=60034-26648', 'https://www.navitime.co.jp/poi?spot=60034-47297', 'https://www.navitime.co.jp/poi?spot=60034-49550', 'https://www.navitime.co.jp/poi?spot=60034-50996', 'https://www.navitime.co.jp/poi?spot=60034-50999', 'https://www.navitime.co.jp/poi?spot=60034-51107', 'https://www.navitime.co.jp/poi?spot=60034-51311', 'https://www.navitime.co.jp/poi?spot=60034-51316', 'https://www.navitime.co.jp/poi?spot=60034-51464', 'https://www.navitime.co.jp/poi?spot=60034-51465', 'https://www.navitime.co.jp/poi?spot=60034-51466', 'https://www.navitime.co.jp/poi?spot=60034-51467', 'https://www.navitime.co.jp/poi?spot=60034-52525', 'https://www.navitime.co.jp/poi?spot=60034-52526', 'https://www.navitime.co.jp/poi?spot=60034-52527', 'https://www.navitime.co.jp/poi?spot=60034-52532']

症状
特にエラーないですが、最初のページ2回スクレイピングされますので、
URL2種で表示されます。

例:重複されるURL

https://www.navitime.co.jp/poi?spot=60048-310001319', 'https://www.navitime.co.jp/poi?spot=60004-IPK0387

実現したい内容
最初のページ1回だけスクレイピングしたいです。
もし次の数字のページがあればクリックしてまたURLをスクレイピングしたいです。

ページの構成によって次のボタンがない時がありますので、次のボタンをクリックする際に
数字を見ています。

→次のボタン

1 2 3 >

もし修正点が分かる方がいましたら、教えていただけると幸いです。
お手数ですが、よろしくお願い致します。

全体のコード

from multiprocessing.dummy import Condition from unicodedata import category from selenium.webdriver.common.keys import Keys import time from selenium.webdriver.chrome.options import Options from selenium.webdriver.support.select import Select from selenium import webdriver from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriver.common.keys import Keys from selenium.common.exceptions import NoSuchElementException import random import subprocess import openpyxl #headless background option = Options() #backgrand #option.add_argument('--headless')p #ログイン情報を維持するための設定  # 参考→https://rabbitfoot.xyz/selenium-chrome-profile PROFILE_PATH ="C:\\Users\\user\\AppData\\Local\\Google\\Chrome\\User Data\\" # 変更 option.add_argument('--user-data-dir=' + PROFILE_PATH) option.add_argument('--profile-directory=Profile 1') #Getting Default Adapter failed error message option.add_experimental_option('excludeSwitches', ['enable-logging']) # ブラウザを開く。 #options=option background driver = webdriver.Chrome(executable_path=ChromeDriverManager().install() ,options=option) #NAVITIME URL URL= "https://www.navitime.co.jp/category/0805/11324/" # URLを開く。 driver.get(URL) #画面サイズ大きくする driver.maximize_window() #待機時間 time.sleep(3) #初期値 i=1 new_list = [] #ループ while True: try: #全てのURLを取得 elements = driver.find_elements('xpath',"//a[@href]") #print(elements) #new_list = [] #### 空のリストを定義して初期化 for element in elements: list=element.get_attribute("href") #URLをリストとして作成 data_list = list.splitlines() #print(data_list) #URLに含んでいるpoi?spotのURLのみ 出力 l_in = [s for s in data_list if 'poi?spot' in s] #print(l_in) #IDを取得 if l_in: new_list.append(l_in[0]) #### ループ内ではリストに追加するだけ if i==1: print("何もしない") else: #次のページへクリック next_page_number = driver.find_element('xpath','//*[@id="body-left"]/ul[1]/li['+str(i)+']') next_page_number.click() #初期値+1 i=1+i #待機時間 time.sleep(3) except NoSuchElementException: break print(new_list)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

提示されているコードは、初期値による分岐が行われる前に一度 URL の抽出が行われており、初期値が 1 のため次のページ遷移ブロックを通れずに再度同じページをスクレイピングしてしまいます。その後で、ページ遷移をブロックを通り次のページへ移行してスクレイピングをしています。

なので、初期値を 2 に設定して、初期値による条件文を取っ払えばいいと思います。

python

1# 初期値 2i = 2 3new_list = [] 4 5# ループ 6while True: 7 try: 8 # 全てのURLを取得 9 elements = driver.find_elements("xpath", "//a[@href]") 10 # print(elements) 11 12 # new_list = [] #### 空のリストを定義して初期化 13 14 for element in elements: 15 list = element.get_attribute("href") 16 17 # URLをリストとして作成 18 data_list = list.splitlines() 19 # print(data_list) 20 21 # URLに含んでいるpoi?spotのURLのみ 出力 22 l_in = [s for s in data_list if "poi?spot" in s] 23 # print(l_in) 24 25 # IDを取得 26 if l_in: 27 new_list.append(l_in[0]) #### ループ内ではリストに追加するだけ 28 29 # 次のページへクリック 30 next_page_number = driver.find_element( 31 "xpath", '//*[@id="body-left"]/ul[1]/li[' + str(i) + "]" 32 ) 33 next_page_number.click() 34 35 # 初期値+1 36 i = 1 + i 37 38 # 待機時間 39 time.sleep(3) 40 41 except NoSuchElementException: 42 break 43 44print(new_list) 45

投稿2023/01/22 04:37

Demerara

総合スコア397

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

fideo

2023/01/25 02:24

ありがとうございます。上記の方法で処理できました。 勉強になりました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問