質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

Q&A

解決済

2回答

1740閲覧

sleniumでまとめてデータ収集できない

shishi_maru440

総合スコア38

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

0グッド

0クリップ

投稿2022/01/26 05:16

前提・実現したいこと

pythonにてseleniumを用いてwebスクレイピングを行いデータ収集の
学習をしています。しかし、教材に基づきまとめてデータ収集しようとしても
エラーを返されてしまいます。
収集する内容はnoteの注目記事一覧とスキの数です。
(LINK: https://note.mu/ )

■■な機能を実装中に以下のエラーメッセージが発生しました。

発生している問題・エラーメッセージ

--------------------------------------------------------------------------- NoSuchElementException Traceback (most recent call last) Input In [3], in <module> 64 if __name__ == '__main__': 65 logging.basicConfig(level=logging.INFO) # INFOレベル以上のログを出力する。 ---> 66 main() Input In [3], in main() 16 # Windows上の仮想マシンの場合は、前の行をコメントアウトして、次の行のコメントアウトを解除する。 17 # driver = Remote('http://10.0.2.2:4444', options=options) 19 navigate(driver) # noteのトップページに遷移する。 ---> 20 contents = scrape_contents(driver) # コンテンツのリストを取得する。 21 logging.info(f'Found {len(contents)} contents.') # 取得したコンテンツの数を表示する。 23 # コンテンツの情報を表示する。 Input In [3], in scrape_contents(driver) 46 # コンテンツを表すdiv要素について反復する。 47 for div in driver.find_elements_by_css_selector('.m-timelineItemWrapper__itemWrapper'): ---> 48 a = div.find_element_by_css_selector('a') 49 try: 50 description = div.find_element_by_css_selector('p').text File /opt/homebrew/Caskroom/miniforge/base/envs/arm_scr_env/lib/python3.8/site-packages/selenium/webdriver/remote/webelement.py:485, in WebElement.find_element_by_css_selector(self, css_selector) 468 """Finds element within this element's children by CSS selector. 469 470 :Args: (...) 482 element = element.find_element_by_css_selector('#foo') 483 """ 484 warnings.warn("find_element_by_* commands are deprecated. Please use find_element() instead") --> 485 return self.find_element(by=By.CSS_SELECTOR, value=css_selector) File /opt/homebrew/Caskroom/miniforge/base/envs/arm_scr_env/lib/python3.8/site-packages/selenium/webdriver/remote/webelement.py:735, in WebElement.find_element(self, by, value) 732 by = By.CSS_SELECTOR 733 value = '[name="%s"]' % value --> 735 return self._execute(Command.FIND_CHILD_ELEMENT, 736 {"using": by, "value": value})['value'] File /opt/homebrew/Caskroom/miniforge/base/envs/arm_scr_env/lib/python3.8/site-packages/selenium/webdriver/remote/webelement.py:710, in WebElement._execute(self, command, params) 708 params = {} 709 params['id'] = self._id --> 710 return self._parent.execute(command, params) File /opt/homebrew/Caskroom/miniforge/base/envs/arm_scr_env/lib/python3.8/site-packages/selenium/webdriver/remote/webdriver.py:424, in WebDriver.execute(self, driver_command, params) 422 response = self.command_executor.execute(driver_command, params) 423 if response: --> 424 self.error_handler.check_response(response) 425 response['value'] = self._unwrap_value( 426 response.get('value', None)) 427 return response File /opt/homebrew/Caskroom/miniforge/base/envs/arm_scr_env/lib/python3.8/site-packages/selenium/webdriver/remote/errorhandler.py:247, in ErrorHandler.check_response(self, response) 245 alert_text = value['alert'].get('text') 246 raise exception_class(message, screen, stacktrace, alert_text) # type: ignore[call-arg] # mypy is not smart enough here --> 247 raise exception_class(message, screen, stacktrace) NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"a"} (Session info: chrome=97.0.4692.99) Stacktrace: 0 chromedriver 0x0000000100e40e69 chromedriver + 5160553 1 chromedriver 0x0000000100dcb593 chromedriver + 4679059 2 chromedriver 0x000000010097f2c8 chromedriver + 172744 3 chromedriver 0x00000001009b4b62 chromedriver + 392034 4 chromedriver 0x00000001009b4d21 chromedriver + 392481 5 chromedriver 0x00000001009a9667 chromedriver + 345703 6 chromedriver 0x00000001009d23ad chromedriver + 512941 7 chromedriver 0x00000001009a95b5 chromedriver + 345525 8 chromedriver 0x00000001009d267e chromedriver + 513662 9 chromedriver 0x00000001009e50ab chromedriver + 589995 10 chromedriver 0x00000001009d2623 chromedriver + 513571 11 chromedriver 0x00000001009a7dce chromedriver + 339406 12 chromedriver 0x00000001009a9105 chromedriver + 344325 13 chromedriver 0x0000000100dfc23e chromedriver + 4878910 14 chromedriver 0x0000000100e13d17 chromedriver + 4975895 15 chromedriver 0x0000000100e19a3f chromedriver + 4999743 16 chromedriver 0x0000000100e1461a chromedriver + 4978202 17 chromedriver 0x0000000100df0bb1 chromedriver + 4832177 18 chromedriver 0x0000000100e30fd8 chromedriver + 5095384 19 chromedriver 0x0000000100e31161 chromedriver + 5095777 20 chromedriver 0x0000000100e482a8 chromedriver + 5190312 21 libsystem_pthread.dylib 0x00007ff81d7f94f4 _pthread_start + 125 22 libsystem_pthread.dylib 0x00007ff81d7f500f thread_start + 15

該当のソースコード

python

1import logging 2from typing import List # 型ヒントのためにインポート 3 4from selenium.webdriver import Chrome, ChromeOptions, Remote 5from selenium.common.exceptions import NoSuchElementException 6 7 8def main(): 9 """ 10 メインの処理。 11 """ 12 options = ChromeOptions() 13 # ヘッドレスモードを有効にするには、次の行のコメントアウトを解除する。 14 # options.headless = True 15 driver = Chrome(options=options) # ChromeのWebDriverオブジェクトを作成する。 16 17 navigate(driver) # noteのトップページに遷移する。 18 contents = scrape_contents(driver) # コンテンツのリストを取得する。 19 logging.info(f'Found {len(contents)} contents.') # 取得したコンテンツの数を表示する。 20 21 # コンテンツの情報を表示する。 22 for content in contents: 23 print(content) 24 25 driver.quit() # ブラウザーを終了する。 26 27 28def navigate(driver: Remote): 29 """ 30 目的のページに遷移する。 31 """ 32 logging.info('Navigating...') 33 driver.get('https://note.mu/') # noteのトップページを開く。 34 assert 'note' in driver.title # タイトルに'note'が含まれていることを確認する。 35 time.sleep(10) 36 37 38def scrape_contents(driver: Remote) -> List[dict]: 39 """ 40 文章コンテンツのURL、タイトル、概要、スキの数を含むdictのリストを取得する。 41 """ 42 contents = [] # 取得したコンテンツを格納するリスト。 43 44 # コンテンツを表すdiv要素について反復する。 45 for div in driver.find_elements_by_css_selector('.m-timelineItemWrapper__itemWrapper'): 46 a = div.find_element_by_css_selector('a') 47 try: 48 description = div.find_element_by_css_selector('p').text 49 except NoSuchElementException: 50 description = ' ' # 画像コンテンツなどp要素がない場合は空文字にする。 51 52 # URL、タイトル、概要、スキの数を取得して、dictとしてリストに追加する。 53 contents.append({ 54 'url': a.get_attribute('href'), 55 'title': div.find_element_by_css_selector('h3').text, 56 'description': description, 57 'like': int(div.find_element_by_css_selector('.o-noteAction__likeCount').text) 58 }) 59 60 return contents 61 62if __name__ == '__main__': 63 logging.basicConfig(level=logging.INFO) # INFOレベル以上のログを出力する。 64 main()

試したこと

一つずつ要素を取得できるか確認し
一つずつであれば問題なく動作することは確認できた。

driver = Chrome() driver.get('https://note.mu/') time.sleep(10) div = driver.find_element_by_css_selector('.m-timelineItemWrapper__itemWrapper') a = div.find_element_by_css_selector('a') a.get_attribute('href') >>>'https://note.com/tksit/n/nd5e4545af0ea' div.find_element_by_css_selector('h3').text >>>'音楽レーベル「4AD」に学ぶ、世界観のつくりかた'

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

最後の2つの div 要素に a タグが含まれていない状態です(h3.o-noteAction__likeCount 要素もありません)。

python

1>>> driver = Chrome() 2>>> driver.get('https://note.mu/') 3>>> divs = driver.find_elements_by_css_selector('.m-timelineItemWrapper__itemWrapper') 4>>> divs[0].find_element_by_css_selector('a').get_attribute('href') 5'https://note.com/tksit/n/nd5e4545af0ea' 6>>> divs[-1].find_element_by_css_selector('a').get_attribute('href') 7 : 8selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"a"} 9 10>>> divs[-2].find_element_by_css_selector('a').get_attribute('href') 11 : 12selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"a"} 13 14>>> divs[-3].find_element_by_css_selector('a').get_attribute('href') 15'https://note.com/door13/n/n3630af16c3cc'

なので、a タグが存在しない div 要素が出現する時点で for ループを打ち切る様にしてみてはどうでしょうか。

python

1 # コンテンツを表すdiv要素について反復する。 2 for div in driver.find_elements_by_css_selector('.m-timelineItemWrapper__itemWrapper'): 3 try: 4 a = div.find_element_by_css_selector('a') 5 except NoSuchElementException: 6 break 7 8 try: 9 description = div.find_element_by_css_selector('p').text 10 except NoSuchElementException: 11 description = ' ' # 画像コンテンツなどp要素がない場合は空文字にする。 12

実行結果以下になります。

text

1{'url': 'https://note.com/tksit/n/nd5e4545af0ea', 'title': '音楽レーベル「4AD」に学ぶ、世界観のつくりかた', 'description': ' ', 'like': 55} 2{'url': 'https://note.com/dxia_pr/n/n52b19d523ad2', 'title': '現役データサイエンティストが語る!データサイエンティストってどんな仕事?', 'description': ' ', 'like': 51} 3 : 4 5{'url': 'https://note.com/shakunone/n/n32e15b56be14', 'title': '22年ぶりに父と話したとき。僕の手は震えていた。', 'description': ' ', 'like': 224} 6{'url': 'https://note.com/door13/n/n3630af16c3cc', 'title': '賞味期限切れのコーヒーがうれしかった', 'description': ' ', 'like': 153}

投稿2022/01/26 07:05

melian

総合スコア19769

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

shishi_maru440

2022/01/27 00:19 編集

アドバイスいただいたtry-except分を追記して無事動作しました。 大変勉強になりました。ありがとうございます。
guest

0

アドバイスいただいたtry-except分を追記して無事動作しました。
大変勉強になりました。ありがとうございます。

投稿2022/01/27 00:17

shishi_maru440

総合スコア38

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問