質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

解決済

sleniumでまとめてデータ収集できない

shishi_maru440
shishi_maru440

総合スコア35

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

2回答

0評価

0クリップ

481閲覧

投稿2022/01/26 05:16

前提・実現したいこと

pythonにてseleniumを用いてwebスクレイピングを行いデータ収集の
学習をしています。しかし、教材に基づきまとめてデータ収集しようとしても
エラーを返されてしまいます。
収集する内容はnoteの注目記事一覧とスキの数です。
(LINK: https://note.mu/ )

■■な機能を実装中に以下のエラーメッセージが発生しました。

発生している問題・エラーメッセージ

--------------------------------------------------------------------------- NoSuchElementException Traceback (most recent call last) Input In [3], in <module> 64 if __name__ == '__main__': 65 logging.basicConfig(level=logging.INFO) # INFOレベル以上のログを出力する。 ---> 66 main() Input In [3], in main() 16 # Windows上の仮想マシンの場合は、前の行をコメントアウトして、次の行のコメントアウトを解除する。 17 # driver = Remote('http://10.0.2.2:4444', options=options) 19 navigate(driver) # noteのトップページに遷移する。 ---> 20 contents = scrape_contents(driver) # コンテンツのリストを取得する。 21 logging.info(f'Found {len(contents)} contents.') # 取得したコンテンツの数を表示する。 23 # コンテンツの情報を表示する。 Input In [3], in scrape_contents(driver) 46 # コンテンツを表すdiv要素について反復する。 47 for div in driver.find_elements_by_css_selector('.m-timelineItemWrapper__itemWrapper'): ---> 48 a = div.find_element_by_css_selector('a') 49 try: 50 description = div.find_element_by_css_selector('p').text File /opt/homebrew/Caskroom/miniforge/base/envs/arm_scr_env/lib/python3.8/site-packages/selenium/webdriver/remote/webelement.py:485, in WebElement.find_element_by_css_selector(self, css_selector) 468 """Finds element within this element's children by CSS selector. 469 470 :Args: (...) 482 element = element.find_element_by_css_selector('#foo') 483 """ 484 warnings.warn("find_element_by_* commands are deprecated. Please use find_element() instead") --> 485 return self.find_element(by=By.CSS_SELECTOR, value=css_selector) File /opt/homebrew/Caskroom/miniforge/base/envs/arm_scr_env/lib/python3.8/site-packages/selenium/webdriver/remote/webelement.py:735, in WebElement.find_element(self, by, value) 732 by = By.CSS_SELECTOR 733 value = '[name="%s"]' % value --> 735 return self._execute(Command.FIND_CHILD_ELEMENT, 736 {"using": by, "value": value})['value'] File /opt/homebrew/Caskroom/miniforge/base/envs/arm_scr_env/lib/python3.8/site-packages/selenium/webdriver/remote/webelement.py:710, in WebElement._execute(self, command, params) 708 params = {} 709 params['id'] = self._id --> 710 return self._parent.execute(command, params) File /opt/homebrew/Caskroom/miniforge/base/envs/arm_scr_env/lib/python3.8/site-packages/selenium/webdriver/remote/webdriver.py:424, in WebDriver.execute(self, driver_command, params) 422 response = self.command_executor.execute(driver_command, params) 423 if response: --> 424 self.error_handler.check_response(response) 425 response['value'] = self._unwrap_value( 426 response.get('value', None)) 427 return response File /opt/homebrew/Caskroom/miniforge/base/envs/arm_scr_env/lib/python3.8/site-packages/selenium/webdriver/remote/errorhandler.py:247, in ErrorHandler.check_response(self, response) 245 alert_text = value['alert'].get('text') 246 raise exception_class(message, screen, stacktrace, alert_text) # type: ignore[call-arg] # mypy is not smart enough here --> 247 raise exception_class(message, screen, stacktrace) NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"a"} (Session info: chrome=97.0.4692.99) Stacktrace: 0 chromedriver 0x0000000100e40e69 chromedriver + 5160553 1 chromedriver 0x0000000100dcb593 chromedriver + 4679059 2 chromedriver 0x000000010097f2c8 chromedriver + 172744 3 chromedriver 0x00000001009b4b62 chromedriver + 392034 4 chromedriver 0x00000001009b4d21 chromedriver + 392481 5 chromedriver 0x00000001009a9667 chromedriver + 345703 6 chromedriver 0x00000001009d23ad chromedriver + 512941 7 chromedriver 0x00000001009a95b5 chromedriver + 345525 8 chromedriver 0x00000001009d267e chromedriver + 513662 9 chromedriver 0x00000001009e50ab chromedriver + 589995 10 chromedriver 0x00000001009d2623 chromedriver + 513571 11 chromedriver 0x00000001009a7dce chromedriver + 339406 12 chromedriver 0x00000001009a9105 chromedriver + 344325 13 chromedriver 0x0000000100dfc23e chromedriver + 4878910 14 chromedriver 0x0000000100e13d17 chromedriver + 4975895 15 chromedriver 0x0000000100e19a3f chromedriver + 4999743 16 chromedriver 0x0000000100e1461a chromedriver + 4978202 17 chromedriver 0x0000000100df0bb1 chromedriver + 4832177 18 chromedriver 0x0000000100e30fd8 chromedriver + 5095384 19 chromedriver 0x0000000100e31161 chromedriver + 5095777 20 chromedriver 0x0000000100e482a8 chromedriver + 5190312 21 libsystem_pthread.dylib 0x00007ff81d7f94f4 _pthread_start + 125 22 libsystem_pthread.dylib 0x00007ff81d7f500f thread_start + 15

該当のソースコード

python

import logging from typing import List # 型ヒントのためにインポート from selenium.webdriver import Chrome, ChromeOptions, Remote from selenium.common.exceptions import NoSuchElementException def main(): """ メインの処理。 """ options = ChromeOptions() # ヘッドレスモードを有効にするには、次の行のコメントアウトを解除する。 # options.headless = True driver = Chrome(options=options) # ChromeのWebDriverオブジェクトを作成する。 navigate(driver) # noteのトップページに遷移する。 contents = scrape_contents(driver) # コンテンツのリストを取得する。 logging.info(f'Found {len(contents)} contents.') # 取得したコンテンツの数を表示する。 # コンテンツの情報を表示する。 for content in contents: print(content) driver.quit() # ブラウザーを終了する。 def navigate(driver: Remote): """ 目的のページに遷移する。 """ logging.info('Navigating...') driver.get('https://note.mu/') # noteのトップページを開く。 assert 'note' in driver.title # タイトルに'note'が含まれていることを確認する。 time.sleep(10) def scrape_contents(driver: Remote) -> List[dict]: """ 文章コンテンツのURL、タイトル、概要、スキの数を含むdictのリストを取得する。 """ contents = [] # 取得したコンテンツを格納するリスト。 # コンテンツを表すdiv要素について反復する。 for div in driver.find_elements_by_css_selector('.m-timelineItemWrapper__itemWrapper'): a = div.find_element_by_css_selector('a') try: description = div.find_element_by_css_selector('p').text except NoSuchElementException: description = ' ' # 画像コンテンツなどp要素がない場合は空文字にする。 # URL、タイトル、概要、スキの数を取得して、dictとしてリストに追加する。 contents.append({ 'url': a.get_attribute('href'), 'title': div.find_element_by_css_selector('h3').text, 'description': description, 'like': int(div.find_element_by_css_selector('.o-noteAction__likeCount').text) }) return contents if __name__ == '__main__': logging.basicConfig(level=logging.INFO) # INFOレベル以上のログを出力する。 main()

試したこと

一つずつ要素を取得できるか確認し
一つずつであれば問題なく動作することは確認できた。

driver = Chrome() driver.get('https://note.mu/') time.sleep(10) div = driver.find_element_by_css_selector('.m-timelineItemWrapper__itemWrapper') a = div.find_element_by_css_selector('a') a.get_attribute('href') >>>'https://note.com/tksit/n/nd5e4545af0ea' div.find_element_by_css_selector('h3').text >>>'音楽レーベル「4AD」に学ぶ、世界観のつくりかた'

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。