Python3.8 seleniumでXPATH指定しFor文を回してスクレイピング練習をしたいが要素テキストが二回ずつ表示される＆別サイトを追加するとエラーに

前提・実現したいこと

はじめて質問させていただきます、
プログラミング初心者でPython を勉強しています。

外部のテキストファイルAを読み込んで
対応するURLを開き、外部テキストファイルA　に載っているXPATHを取得し
テキストをスクレイピング取得するといったものを作りたく、
コードを書いています。

発生している問題・エラーメッセージ

elem.text　で各情報を一回だけ表示させたいが二回ずつ表示される

おそらくFor文が間違っているのだろうと思うのですがどう直すべきかわからない状態です。

出力結果
The Requiem Red
£22.60
The Requiem Red
£22.60

　URL1 --> XPATH1を取得
　URL2 --> XPATH2を取得...
 　といった順番で処理したいのですがうまくいきません

対象とするサイトが同じページなのがよくないのかとおもい
http://www.rpachallenge.com/assets/rpaStockMarket/index.html#
のXPATH　"//*[@id="cnt"]" の情報も追加して取得を試してみましたが
今度は以下のようなエラーメッセージを返されました。


---------------------------------------------------------------------------
NoSuchElementException                    Traceback (most recent call last)
<ipython-input-88-80e59952bf20> in <module>
      7 
      8     for X in XPATHs:
----> 9         elem = browser.find_element_by_xpath(X)
     10         e = elem.text
     11         print(e)

c:\py\python38\lib\site-packages\selenium\webdriver\remote\webdriver.py in find_element_by_xpath(self, xpath)
    392             element = driver.find_element_by_xpath('//div/td[1]')
    393         """
--> 394         return self.find_element(by=By.XPATH, value=xpath)
    395 
    396     def find_elements_by_xpath(self, xpath):

c:\py\python38\lib\site-packages\selenium\webdriver\remote\webdriver.py in find_element(self, by, value)
    974                 by = By.CSS_SELECTOR
    975                 value = '[name="%s"]' % value
--> 976         return self.execute(Command.FIND_ELEMENT, {
    977             'using': by,
    978             'value': value})['value']

c:\py\python38\lib\site-packages\selenium\webdriver\remote\webdriver.py in execute(self, driver_command, params)
    319         response = self.command_executor.execute(driver_command, params)
    320         if response:
--> 321             self.error_handler.check_response(response)
    322             response['value'] = self._unwrap_value(
    323                 response.get('value', None))

c:\py\python38\lib\site-packages\selenium\webdriver\remote\errorhandler.py in check_response(self, response)
    240                 alert_text = value['alert'].get('text')
    241             raise exception_class(message, screen, stacktrace, alert_text)
--> 242         raise exception_class(message, screen, stacktrace)
    243 
    244     def _value_or_default(self, obj, key, default):

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"//*[@id="cnt"]"}
  (Session info: chrome=90.0.4430.212)


もしくはこの利用法ではなくもっと別の方法をとるべきなのか試行錯誤しておりますが
現在の自分の知識不足でつまづいています。
皆様のお知恵やなんらかヒントなどいただければありがたいです。

読み込んだcsvファイルは以下です。
最初に対象としたスクレイピング対象サイトは　"https://books.toscrape.com/" 練習用サイトです。

外部テキストファイルA:

|URL|XPATH|
|:--|:--:|
|https://books.toscrape.com/|//a[@title='The Requiem Red']|
|https://books.toscrape.com/|//*[@id="default"]/div/div/div/div/section/div[2]/ol/li[9]/article/div[2]/p[1]|
|http://www.rpachallenge.com/assets/rpaStockMarket/index.html#|//*[@id="cnt"]|

該当のソースコード

Python
1
2from selenium import webdriver
3import pandas as pd
4
5df01 = pd.read_csv(r'URLforExtractNames.txt', names=['URL', 'XPATH'])
6df01
7
8#読み込んだテキストはカンマ区切りにしておりCSV読み込みしたのち以下のデータフレームにしております
9#	URL	                         XPATH
10#0	https://books.toscrape.com/	//a[@title='The Requiem Red']
11#1	https://books.toscrape.com/	//*[@id="default"]/div/div/div/div/section/div[2]/ol/li[9]/article/div[2]/p[1]
12
13URLs = df01['URL']
14XPATHs = df01['XPATH']
15
16#データフレームにした情報をそれぞれfor文に入れて各々のURLごとにXPATHを検索
17for U in URLs:
18    browser = webdriver.Chrome()
19    browser.get(U)
20    
21    for X in XPATHs:
22        elem = browser.find_element_by_xpath(X)
23        e = elem.text
24        print(e)
25
26#最初に試行した出力結果では以下のように二回ずつ表示されました
27#The Requiem Red
28#£22.60
29#The Requiem Red
30#£22.60
31
32
33

試したこと

開発環境をVScodeへ変更し結果を確認
jupyter-labから.pyで出力しVScodeでデバッグしましたが同様
RPAchallenge　サイト"http://www.rpachallenge.com/assets/rpaStockMarket/index.html#"の
XPATH情報"//*[@id="cnt"]"を追加して試行。URL遷移ができていない？ように思います

補足情報（FW/ツールのバージョンなど）

Python 3.8
pandas 1.2.4
selenium 3.141.0
OS windows10
Jupyter-lab3.0.13

前提・実現したいこと

はじめて質問させていただきます、
プログラミング初心者でPython を勉強しています。
外部のテキストファイルを読み込んで
対応するURLを開き　XPATHのテキストをスクレイピング取得するといったものを作りたく、
コードを書いています。

発生している問題・エラーメッセージ

elem.text　で各情報を一回だけ表示させたいが二回ずつ表示される

おそらくFor文が間違っているのだろうと思うのですがどう直すべきかわからない状態です。

もしくはこの利用法ではなくもっと別の方法をとるべきなのか試行錯誤しておりますが
現在の自分の知識不足でつまづいています。
皆様のお知恵をいただければと思います。

読み込んだcsvファイルは以下です。
スクレイピング対象サイトは　"https://books.toscrape.com/" 練習用サイトです。

|URL|XPATH|
|:--|:--:|
|https://books.toscrape.com/|//a[@title='The Requiem Red']|
|https://books.toscrape.com/|//*[@id="default"]/div/div/div/div/section/div[2]/ol/li[9]/article/div[2]/p[1]|

該当のソースコード

Python
1
2from selenium import webdriver
3import pandas as pd
4
5df01 = pd.read_csv(r'URLforExtractNames.txt', names=['URL', 'XPATH'])
6df01
7
8#読み込んだテキストはカンマ区切りにしておりCSV読み込みしたのち以下のデータフレームにしております
9#	URL	                         XPATH
10#0	https://books.toscrape.com/	//a[@title='The Requiem Red']
11#1	https://books.toscrape.com/	//*[@id="default"]/div/div/div/div/section/div[2]/ol/li[9]/article/div[2]/p[1]
12
13URLs = df01['URL']
14XPATHs = df01['XPATH']
15
16#データフレームにした情報をそれぞれfor文に入れて各々のURLごとにXPATHを検索
17for U in URLs:
18    browser = webdriver.Chrome()
19    browser.get(U)
20    
21    for X in XPATHs:
22        elem = browser.find_element_by_xpath(X)
23        e = elem.text
24        print(e)
25
26#出力結果は以下のように二回ずつ表示されています
27#The Requiem Red
28#£22.60
29#The Requiem Red
30#£22.60
31
32

試したこと

開発環境をVScodeへ変更し結果を確認
jupyter-labから.pyで出力しVScodeでデバッグしましたが同様

補足情報（FW/ツールのバージョンなど）

Python 3.8
pandas 1.2.4
selenium 3.141.0
OS windows10
Jupyter-lab3.0.13

行動規範の内容に同意します

回答1件

ベストアンサー

こんばんは。

問題文読ませていただきました。

Python
1from selenium import webdriver
2import pandas as pd
3
4df = pd.read_csv('./test.csv')
5
6for index, row in df.iterrows():
7    url = row['URL']
8    xPath = row['XPATH']
9
10    browser = webdriver.Chrome()
11    browser.get(url)
12    elem = browser.find_element_by_xpath(xPath)
13    print(elem.text)