質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.31%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

Q&A

解決済

1回答

844閲覧

find_elementで取得できない要素を拾いたい

tac_okm

総合スコア3

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

0グッド

0クリップ

投稿2023/10/20 12:36

編集2023/10/20 12:50

困っていること

  • find_elementで取得できない要素を拾いたい

初心者ながら、pythonでseleniumを使ってメルカリのスクレイピングをする検証をしていますが、一部の要素がどうしても抜けません

ページの要素

イメージ説明

該当のソースコード

python

1# Chromeドライバの自動更新 2import chromedriver_binary_sync 3chromedriver_binary_sync.download() 4 5# 必要ライブラリのインポート 6from selenium import webdriver 7from selenium.webdriver.common.by import By 8from selenium.webdriver.common.keys import Keys 9import chromedriver_binary 10import time 11import pandas as pd 12 13from selenium.webdriver.support.ui import WebDriverWait 14from selenium.webdriver.support import expected_conditions as EC 15 16#ブラウザの設定 17options = webdriver.ChromeOptions() 18options.add_argument('--headless') 19options.add_argument('--no-sandbox') 20options.add_argument('--disable-dev-shm-usage') 21 22#ブラウザの起動 23browser = webdriver.Chrome(options=options) 24wait = WebDriverWait(browser, 3) 25 26url = 'https://jp.mercari.com/item/m66669659367' 27 28browser.get(url) 29time.sleep(5) 30 31#要素取得 32element = browser.find_element(By.CSS_SELECTOR, '#item-info > section:nth-child(1) > section:nth-child(3) > div > pre:nth-child(2)').text 33#element = browser.find_element(By.CSS_SELECTOR, '#item-info > section:nth-child(1) > div.mer-spacing-b-12 > div > div > h1').text 34print('売れてからの経過時間 : ' + element)

試したこと

そのままセレクターをコピーすると

python

1'#item-info > section:nth-child(1) > section:nth-child(3) > div > pre.merText.small__5616e150.primary__5616e150.bold__5616e150'

ですが、2連続アンダースコアが入っているため、nth-childで置き換えましたが、取得ができませんでした

同じような要素の構成が数か所あり、どこも取得する同階層にshadow_rootがあります。取得したい要素自体はshadow_root内ではないので、なぜ拾えないのかわかりません

pythonを触って2日目なので、調べ足りないのかもしれませんが、お力をお貸しいただければと思います

補足情報(FW/ツールのバージョンなど)

項目バージョン
Windows1122H2(22621.2428)
Python3.12.0
selenium4.14.0
Chrome118.0.5993.89

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2023/10/20 23:20

> 一部の要素がどうしても抜けません どこまで取得できているのか確認してはどうでしょうか?
tac_okm

2023/10/21 00:14

ありがとうございます。 ソースでコメントアウトしている要素で実行するとちゃんとprintされるのですが、本質問の要素では以下のエラーが発生します セレクターで要素が見つからないような感じです Traceback (most recent call last): File "C:\Users\XXXX\Desktop\python_learn\XXXX.py", line 32, in <module> element = browser.find_element(By.CSS_SELECTOR, '#item-info > section:nth-child(1) > section:nth-child(3) > div > pre:nth-child(2)').text ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Users\XXXX\AppData\Local\Programs\Python\Python312\Lib\site-packages\selenium\webdriver\remote\webdriver.py", line 738, in find_element return self.execute(Command.FIND_ELEMENT, {"using": by, "value": value})["value"] ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Users\XXXXX\AppData\Local\Programs\Python\Python312\Lib\site-packages\selenium\webdriver\remote\webdriver.py", line 344, in execute self.error_handler.check_response(response) File "C:\Users\XXXXX\AppData\Local\Programs\Python\Python312\Lib\site-packages\selenium\webdriver\remote\errorhandler.py", line 229, in check_response raise exception_class(message, screen, stacktrace) selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"#item-info > section:nth-child(1) > section:nth-child(3) > div > pre:nth-child(2)"} (Session info: headless chrome=118.0.5993.89); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#no-such-element-exception
meg_

2023/10/21 00:38

> どこまで取得できているのか確認してはどうでしょうか? 上記はやりましたか?”どこまで取得できているのか”を地道に確認するしかないかと思います。
tac_okm

2023/10/21 01:17

申し訳ございません。 どこまで取得できているのかという意味が分かりません。。。 同じソースで別の要素はprintされて、本質問の要素は上記エラーとなり取得ができないため、どこまで取得かどうかについてトレースのしかたなど、参考になる手法があればご教授ください よろしくお願いいたします
meg_

2023/10/21 02:18

> '#item-info > section:nth-child(1) > section:nth-child(3) > div > pre:nth-child(2)' 上記でエラーになるなら'#item-info > section:nth-child(1) > section:nth-child(3) > div 'ではエラーになるのか?ならないのか?のように要素を遡って調べてみる、ということです。
guest

回答1

0

自己解決

自己解決というか原因が分かりましたので本件クローズさせていただきます。

ご回答いただき誠にありがとうございました。

原因

seleniumからChromeをそのまま起動するソースとなっており、取得したい要素はメルカリにログインしないと表示されないことが判明。そのためログインしない状態でページを開いても要素そのものがないためエラーとなってしまっていた

投稿2023/10/21 01:55

tac_okm

総合スコア3

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

otn

2023/10/21 15:34

Seleniumを使ったプログラムの開発は、Seleniumでブラウザをコントロールしてそのウェブ画面を見ながら行います。 Seleniumを使わずに起動したブラウザの画面を参考にするのは全く駄目と言うことではないですが、あくまで参考です。伝聞資料のレベル。
tac_okm

2023/10/21 20:22

仰る通りでした! バックグラウンドをオフにして、挙動や表示内容を確認したら原因がすぐ分かりました 基本ですね、ありがとうございます!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問