質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.51%

Python selenium

受付中

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 92

score 2

前提・実現したいこと

seleniumを使い、ページングのある一覧から各店舗のメニュー情報を取得したい

発生している問題・エラーメッセージ

css selectorで指定している値が間違っているせい(おそらく)で各店舗の
「関連する施術メニューをもっと見る」部分のURLが取得できない。

該当のソースコード

以下のソースコードの

elems = browser.find_elements_by_css_selector(".l-clinic-cassette clinic__buttons c-button")


の部分で記述したcss selectorが間違っており値が取得できないと思っています。
(エラーはでず、ずっと動いた状態になる)

↓↓↓

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.common.exceptions import NoSuchElementException
import pandas as pd
from time import sleep


options = Options()
options.add_argument('--headless') 
browser = webdriver.Chrome(path)

pageURL = 'https://clinic.beauty.hotpepper.jp/TB023/prefecture13/'
browser.get(pageURL)
sleep(3)

elem_urls=[]

# [関連する施術メニューをもっと見る]ボタンのURL取得
while True:
    elems = browser.find_elements_by_css_selector(".l-clinic-cassette clinic__buttons c-button")

    for elem in elems:
        elem_urls.append(elem.get_attribute("href"))

# ページング
    try:
        next_button = browser.find_element_by_class_name('c-pagination__page-link')
        next_button.click()
        sleep(3)
    except Exception:
        #browser.quit()
        break

print('ページ数:', len(elem_urls))

補足情報(FW/ツールのバージョンなど)

jupyter lab

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • otn

    2021/10/14 10:49

    じゃあ、デバッガーはとりあえず置いておいて、printでやりましょう。
    各行の次に、print(1)、print(2)と順次入れれば、どの処理がどのように動いているかが表示される数字を見ればわかります。数字じゃなくてそれぞれ別の文字列でも良いですが。

    キャンセル

  • hafuuuuu

    2021/10/14 11:30

    ご丁寧にご対応いただき感謝いたします!
    ご指摘いただいた内容が↓で行ったこととあっているかわかりませんがご確認いただきますと幸いですm(__)m

    elem_urls=[]
    までは問題なく動き、「# [関連する施術メニューをもっと見る]ボタンのURL取得」直下の
    ---------------------------------------------------------
    elems = browser.find_elements_by_css_selector(".l-clinic-cassette clinic__buttons c-button")
    print(elems)
    ---------------------------------------------------------
    としたところ,

    ---------------------------------------------------------
    []
    []
    []
    []
    []
    []
    []




    ---------------------------------------------------------
    のように空の結果がずっと繰り返し返されていました。
    これはcss_selectorで指定した値が間違っているから ということでしょうか。

    キャンセル

  • otn

    2021/10/14 12:08

    そこは、そうですね。そういう要素が無いということです。
    clinic__buttonsやc-buttonは、タグ名じゃなくてクラス名では?

    また、tryの部分はどう実行されているのでしょう?

    キャンセル

回答 1

0

".l-clinic-cassette clinic__buttons c-button"

は、l-clinic-cassetteというクラスのタグの子孫のclinic__buttonsというタグの子孫のc-buttonというタグという意味ですが、これは意図通りじゃ無いでしょうね。

l-clinic-cassetteというクラスのタグの子孫のclinic__buttonsというクラスのタグの子孫のc-buttonというクラスのタグであれば、".l-clinic-cassette .clinic__buttons .c-button"です。

そうじゃなくて、class="l-clinic-cassette clinic__buttons c-button"というクラス属性を持つタグであれば、".l-clinic-cassette.clinic__buttons.c-button"です。

ただ、これらの間違いは、実行が終わらないというのとは無関係なので、実行が終わらない調査は別途必要です。
初心者にありがちなのは、「実行しているコードと、質問に掲載しているコードが異なりました!」ということですが、そのあたりは大丈夫でしょうか?

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2021/10/14 15:58 編集

    ご丁寧にしていただきありがとうございます.

    子孫など言葉だけで、意味がわかっていなかったので助かります!
    おそらくご指摘の通り「".l-clinic-cassette .clinic__buttons .c-button"」であっているはずなのですが、出力されたのは下記のような文字列でした。

    <selenium.webdriver.remote.webelement.WebElement (session="3c4aa49af8ef8ad4e3f7a5e990fc6074", element="e111c7a9-c5d8-4111-9691-d3a27a64e459")>
    , <selenium.webdriver.remote.webelement.WebElement (session="3c4aa49af8ef8ad4e3f7a5e990fc6074", element="aed6dc67-3345-4465-b95c-5ef7c4a893eb")>
    , <selenium.webdriver.remote.webelement.WebElement (session="3c4aa49af8ef8ad4e3f7a5e990fc6074", element="8d8dd6d1-fe6c-4e9c-acad-16b16144ef5d")>
    , <selenium.webdriver.remote.webelement.WebElement (session="3c4aa49af8ef8ad4e3f7a5e990fc6074", element="96e5c352-e267-47e6-9a18-91484866870e")>,


    options.add_argument('--headless')  を取りブラウザでの挙動も見ていましたがページングなど含め、まったく動く様子もなかったです。。

    コードは確認したところ、こちらに記載したものと同じでした。
    一つの質問にこんなにお時間割いていただきありがとうございます。

    キャンセル

  • 2021/10/14 20:00

    コードが間違いなくて、プログラムがループし続けるとすると、残る可能性は、
    find_element_by_class_name('c-pagination__page-link')
    が、次のページへのリンクじゃ無くて同じページへのリンクだとかですかね。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.51%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る