selenium 複数のリンク先の情報を取得したい

下記のサイトから、店舗名と女の子の名前をリスト化したいです。
https://www.***********/girllist/

手探りで下記のようなコードを記載しました。

from selenium import webdriver
import pandas as pd

browser = webdriver.Chrome()
url = 'https://www.**************:/'
browser.get(url)

elem_urls = []
girls = []
shop_names = []

browser.get('https://www.*********************:/girllist/')
elems = browser.find_elements_by_class_name('girllistimg')
for elem in elems:
    elem_url = elem.find_element_by_tag_name("a").get_attribute("href")
    elem_urls.append(elem_url)
    for elem_url in elem_urls:
        browser.get(elem_url)
        name_elems = browser.find_elements_by_id('profiles')
        for name_elem in name_elems:
            td_name = name_elem.find_element_by_tag_name('td')
            name = td_name.text
            girls.append(name)
        elem_shop = browser.find_element_by_class_name('shopname')
        elem_shop_name = elem_shop.find_element_by_tag_name('h1')
        shop_name = elem_shop_name.text
        shop_names.append(shop_name)

df = pd.DataFrame()
df['店舗名'] = shop_names
df['名前'] = girls
df['url'] = elem_urls
df.to_csv('test_file.csv',index=None)

下記のエラーが発生してしまいました。

StaleElementReferenceException: Message: stale element reference: element is not attached to the page document

どのように加筆修正すれば良いのか一人ではわかりませんでした。
初心者で稚拙な質問かもしれませんが、何卒よろしくお願い申し上げます。

行動規範の内容に同意します

回答1件

ベストアンサー

pandasの方は詳しく無いのですが
for文を入れ子にしなくても店名・女の子の名前・URLは確保できました
無事CSVファイルも出力されましたし

python
1from selenium import webdriver
2import pandas as pd
3
4browser = webdriver.Chrome()
5
6elem_urls = []
7girls = []
8shop_names = []
9
10browser.get('https://www.cityheaven.net/tokyo/A1303/A130301/tokyo_guranop/girllist/')
11elems = browser.find_elements_by_class_name('girllistimg')
12for elem in elems:
13    elem_urls.append(elem.find_element_by_tag_name('a').get_attribute('href'))
14    girls.append(elem.find_element_by_tag_name('img').get_attribute('alt'))
15    shop_names.append(browser.find_element_by_id('nowShopName').get_attribute('textContent')) # 苦労しました
16
17df = pd.DataFrame()
18df['店舗名'] = shop_names
19df['名前'] = girls
20df['url'] = elem_urls
21df.to_csv('test_file.csv',index=None)

投稿2019/10/14 21:06

編集2019/10/14 21:08

mushroominger

総合スコア133

john_doe_

2019/10/15 05:04 編集

大変ありがとうございます！！ .get_attribute('textContent')、このような書き方ができるのですね。 textでは試してみましたが、textContentと記載できることは知りませんでした。追加でのご相談になりますが、br内のテキスト情報を取得するにはどうしたら良いでしょうか？ <br> " 24歳 T166 ･ 90 (G) ･ 57 ･ 88 " == $0 下記のような試みをしてみましたが駄目でした。。。。 elem.find_element_by_tag_name('br').text 結果：'' お時間ある時で構いませんので、よろしくお願いします。

john_doe_

2019/10/15 05:32

ちなみに、下記を試みましたが、取得データ数が41個と1個多く、内容も全て同じものになってしまいました。。。。 browser.find_element_by_class_name('girllisttext').text.split('\n')[1]

john_doe_

2019/10/15 05:56

for文の後に下記を加筆することで解決いたしました。 elems_size = browser.find_elements_by_class_name('girllisttext') for elem_size in elems_size: sizes.append(elem_size.text.split('\n')[1])

行動規範の内容に同意します