Pythonスクレイピング：urlリストからfor文を回す際のエラーについて

前提

Pythonを使ってスクレイピングを行っています。
ライブラリ：selenium
概要：ふるさと納税サイトの口コミ集計

実現したいこと

最終ゴール：自治体毎に口コミ集計を行う

【想定している流れ】
①自治体ページから各商品のリンクを一覧で抽出
②①で抽出したリンクをbrowser.get(url)して各商品でそれぞれ口コミ集計処理を行う

現状ゴール：商品毎のページに行って、商品のタイトルを取得、一覧でprint抽出

発生している問題・エラーメッセージ

Traceback (most recent call last):
  File "/Users/xxx/Desktop/紋別市/choice/choice.py", line 27, in <module>
    link_title = browser.find_element_by_class_name('ttl-h1__text inline')
  File "/Users/xxx/anaconda3/lib/python3.7/site-packages/selenium/webdriver/remote/webdriver.py", line 564, in find_element_by_class_name
    return self.find_element(by=By.CLASS_NAME, value=name)
  File "/Users/xxx/anaconda3/lib/python3.7/site-packages/selenium/webdriver/remote/webdriver.py", line 978, in find_element
    'value': value})['value']
  File "/Users/xxx/anaconda3/lib/python3.7/site-packages/selenium/webdriver/remote/webdriver.py", line 321, in execute
    self.error_handler.check_response(response)
  File "/Users/xxx/anaconda3/lib/python3.7/site-packages/selenium/webdriver/remote/errorhandler.py", line 242, in check_response
    raise exception_class(message, screen, stacktrace)
selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":".ttl-h1__text inline"}
  (Session info: chrome=84.0.4147.135)

該当のソースコード

python
1from selenium import webdriver
2import time
3import csv
4import datetime
5
6# ブラウザを開く
7browser = webdriver.Chrome()
8# URLを開く
9url = "https://www.furusato-tax.jp/city/product/01219/0"
10browser.get(url)
11
12# citygoods_goods = 「紋別市の全てのお礼の品」←ここから抽出していく
13elems_item = browser.find_element_by_class_name('citygoods_goods')
14# citygoods_goods の中の各商品ごと
15elems = elems_item.find_elements_by_class_name('card-product')
16
17# ①各商品ごとのリンクをリストで抽出
18# ②で抽出したリストをfor文で回して一つずつurlを見に行って集計処理をする
19product_link = []
20title = []
21for elem in elems:
22    elem_product_link = elem.find_element_by_class_name('card-product__link')
23    product_link.append(elem_product_link.get_attribute('href'))
24    for link in product_link:
25        browser.get(link)
26        time.sleep(1.0)
27        link_title = browser.find_element_by_class_name('ttl-h1__text inline')
28        print(link_title)
29
30browser.close()

エラーとなっている箇所

python
1link_title = browser.find_element_by_class_name('ttl-h1__text inline')

原因が分からず...
ご教示いただけますと幸いです。
よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

find_element_by_class_nameではそもそも複数の要素の指定ができません。
どうしてもという場合、find_elements_by_css_selectorを使うなどして複数指定しましょう。
ただしfind_elements_by_css_selectorは配列が返りますので、
内部要素を使いたい場合[0]を使ってアクセスする必要があります。

python
1・・・
2# ①各商品ごとのリンクをリストで抽出
3# ②で抽出したリストをfor文で回して一つずつurlを見に行って集計処理をする
4product_link = []
5title = []
6for elem in elems:
7    elem_product_link = elem.find_element_by_class_name('card-product__link')
8    product_link.append(elem_product_link.get_attribute('href'))
9    for link in product_link:
10        browser.get(link)
11        time.sleep(1.0)
12        link_title = browser.find_elements_by_css_selector('.ttl-h1__text.inline')
13        print(link_title[0])
14・・・

追記
そこは質問のエラー部分とは関係ありません。
elemが親ページのエレメントであるにも関わらず、下のbrowser.getで別ページに遷移してから、
再度elemから要素を取得しようとするとオブジェクトの内容が変わってしまっているためそのエラーになります。
ページ遷移する前にelemsから得られるhrefの内容をリストに全て格納してしまってからそれをループ処理した方がいいですね。
このソースで指定されているclassにある商品名？を取得することができます。

python
1title = []
2product_link = [pl.get_attribute('href') for pl in [elem.find_element_by_class_name('card-product__link') for elem in elems]]
3for link in product_link:
4    browser.get(link)
5    time.sleep(1.0)
6    link_title = browser.find_elements_by_css_selector('.ttl-h1__text.inline')
7    print(link_title[0].text)

投稿2020/08/24 04:48

編集2020/08/24 06:45

yureighost

総合スコア2183

gomasan

2020/08/24 06:19

ご回答くださりありがとうございます。教えていただいた通りにやってみたのですが、以下の通りエラーとなります。 ``` selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: element is not attached to the page document (Session info: chrome=84.0.4147.135) ``` エラーの箇所は、 ``` elem_product_link = elem.find_element_by_class_name('card-product__link') ``` です。こちらは又違うエラーなのでしょうか..?

gomasan

2020/08/24 07:35

> elemが親ページのエレメントであるにも関わらず、下のbrowser.getで別ページに遷移してから、 >再度elemから要素を取得しようとするとオブジェクトの内容が変わってしまっているためそのエラーになり >ます。 >ページ遷移する前にelemsから得られるhrefの内容をリストに全て格納してしまってからそれをループ処理 >した方がいいですね。 →やっと根本的な考え方の間違いに気がつきました。確かにそうですね...教えていただいた通り実行し、無事に商品名をリストでとってくることができました。エラーの原因もやっと理解することができました。本当にありがとうございます...!

行動規範の内容に同意します