sleniumでまとめてデータ収集できない

前提・実現したいこと

pythonにてseleniumを用いてwebスクレイピングを行いデータ収集の
学習をしています。しかし、教材に基づきまとめてデータ収集しようとしても
エラーを返されてしまいます。
収集する内容はnoteの注目記事一覧とスキの数です。
(LINK: https://note.mu/ )

■■な機能を実装中に以下のエラーメッセージが発生しました。

発生している問題・エラーメッセージ

---------------------------------------------------------------------------
NoSuchElementException                    Traceback (most recent call last)
Input In [3], in <module>
     64 if __name__ == '__main__':
     65     logging.basicConfig(level=logging.INFO)  # INFOレベル以上のログを出力する。
---> 66     main()

Input In [3], in main()
     16 # Windows上の仮想マシンの場合は、前の行をコメントアウトして、次の行のコメントアウトを解除する。
     17 # driver = Remote('http://10.0.2.2:4444', options=options)
     19 navigate(driver)  # noteのトップページに遷移する。
---> 20 contents = scrape_contents(driver)  # コンテンツのリストを取得する。
     21 logging.info(f'Found {len(contents)} contents.')  # 取得したコンテンツの数を表示する。
     23 # コンテンツの情報を表示する。

Input In [3], in scrape_contents(driver)
     46 # コンテンツを表すdiv要素について反復する。
     47 for div in driver.find_elements_by_css_selector('.m-timelineItemWrapper__itemWrapper'):
---> 48     a = div.find_element_by_css_selector('a')
     49     try:
     50         description = div.find_element_by_css_selector('p').text

File /opt/homebrew/Caskroom/miniforge/base/envs/arm_scr_env/lib/python3.8/site-packages/selenium/webdriver/remote/webelement.py:485, in WebElement.find_element_by_css_selector(self, css_selector)
    468 """Finds element within this element's children by CSS selector.
    469 
    470 :Args:
   (...)
    482         element = element.find_element_by_css_selector('#foo')
    483 """
    484 warnings.warn("find_element_by_* commands are deprecated. Please use find_element() instead")
--> 485 return self.find_element(by=By.CSS_SELECTOR, value=css_selector)

File /opt/homebrew/Caskroom/miniforge/base/envs/arm_scr_env/lib/python3.8/site-packages/selenium/webdriver/remote/webelement.py:735, in WebElement.find_element(self, by, value)
    732     by = By.CSS_SELECTOR
    733     value = '[name="%s"]' % value
--> 735 return self._execute(Command.FIND_CHILD_ELEMENT,
    736                      {"using": by, "value": value})['value']

File /opt/homebrew/Caskroom/miniforge/base/envs/arm_scr_env/lib/python3.8/site-packages/selenium/webdriver/remote/webelement.py:710, in WebElement._execute(self, command, params)
    708     params = {}
    709 params['id'] = self._id
--> 710 return self._parent.execute(command, params)

File /opt/homebrew/Caskroom/miniforge/base/envs/arm_scr_env/lib/python3.8/site-packages/selenium/webdriver/remote/webdriver.py:424, in WebDriver.execute(self, driver_command, params)
    422 response = self.command_executor.execute(driver_command, params)
    423 if response:
--> 424     self.error_handler.check_response(response)
    425     response['value'] = self._unwrap_value(
    426         response.get('value', None))
    427     return response

File /opt/homebrew/Caskroom/miniforge/base/envs/arm_scr_env/lib/python3.8/site-packages/selenium/webdriver/remote/errorhandler.py:247, in ErrorHandler.check_response(self, response)
    245         alert_text = value['alert'].get('text')
    246     raise exception_class(message, screen, stacktrace, alert_text)  # type: ignore[call-arg]  # mypy is not smart enough here
--> 247 raise exception_class(message, screen, stacktrace)

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"a"}
  (Session info: chrome=97.0.4692.99)
Stacktrace:
0   chromedriver                        0x0000000100e40e69 chromedriver + 5160553
1   chromedriver                        0x0000000100dcb593 chromedriver + 4679059
2   chromedriver                        0x000000010097f2c8 chromedriver + 172744
3   chromedriver                        0x00000001009b4b62 chromedriver + 392034
4   chromedriver                        0x00000001009b4d21 chromedriver + 392481
5   chromedriver                        0x00000001009a9667 chromedriver + 345703
6   chromedriver                        0x00000001009d23ad chromedriver + 512941
7   chromedriver                        0x00000001009a95b5 chromedriver + 345525
8   chromedriver                        0x00000001009d267e chromedriver + 513662
9   chromedriver                        0x00000001009e50ab chromedriver + 589995
10  chromedriver                        0x00000001009d2623 chromedriver + 513571
11  chromedriver                        0x00000001009a7dce chromedriver + 339406
12  chromedriver                        0x00000001009a9105 chromedriver + 344325
13  chromedriver                        0x0000000100dfc23e chromedriver + 4878910
14  chromedriver                        0x0000000100e13d17 chromedriver + 4975895
15  chromedriver                        0x0000000100e19a3f chromedriver + 4999743
16  chromedriver                        0x0000000100e1461a chromedriver + 4978202
17  chromedriver                        0x0000000100df0bb1 chromedriver + 4832177
18  chromedriver                        0x0000000100e30fd8 chromedriver + 5095384
19  chromedriver                        0x0000000100e31161 chromedriver + 5095777
20  chromedriver                        0x0000000100e482a8 chromedriver + 5190312
21  libsystem_pthread.dylib             0x00007ff81d7f94f4 _pthread_start + 125
22  libsystem_pthread.dylib             0x00007ff81d7f500f thread_start + 15

該当のソースコード

python
1import logging
2from typing import List  # 型ヒントのためにインポート
3
4from selenium.webdriver import Chrome, ChromeOptions, Remote
5from selenium.common.exceptions import NoSuchElementException
6
7
8def main():
9    """
10    メインの処理。
11    """
12    options = ChromeOptions()
13    # ヘッドレスモードを有効にするには、次の行のコメントアウトを解除する。
14    # options.headless = True
15    driver = Chrome(options=options)  # ChromeのWebDriverオブジェクトを作成する。
16
17    navigate(driver)  # noteのトップページに遷移する。
18    contents = scrape_contents(driver)  # コンテンツのリストを取得する。
19    logging.info(f'Found {len(contents)} contents.')  # 取得したコンテンツの数を表示する。
20
21    # コンテンツの情報を表示する。
22    for content in contents:
23        print(content)
24
25    driver.quit()  # ブラウザーを終了する。
26
27
28def navigate(driver: Remote):
29    """
30    目的のページに遷移する。
31    """
32    logging.info('Navigating...')
33    driver.get('https://note.mu/')  # noteのトップページを開く。
34    assert 'note' in driver.title  # タイトルに'note'が含まれていることを確認する。
35    time.sleep(10)
36
37
38def scrape_contents(driver: Remote) -> List[dict]:
39    """
40    文章コンテンツのURL、タイトル、概要、スキの数を含むdictのリストを取得する。
41    """
42    contents = []  # 取得したコンテンツを格納するリスト。
43
44    # コンテンツを表すdiv要素について反復する。
45    for div in driver.find_elements_by_css_selector('.m-timelineItemWrapper__itemWrapper'):
46        a = div.find_element_by_css_selector('a')
47        try:
48            description = div.find_element_by_css_selector('p').text
49        except NoSuchElementException:
50            description = ' '  # 画像コンテンツなどp要素がない場合は空文字にする。
51
52        # URL、タイトル、概要、スキの数を取得して、dictとしてリストに追加する。
53        contents.append({
54           'url': a.get_attribute('href'),
55           'title': div.find_element_by_css_selector('h3').text,
56           'description': description,
57           'like': int(div.find_element_by_css_selector('.o-noteAction__likeCount').text)
58        })
59
60    return contents
61
62if __name__ == '__main__':
63    logging.basicConfig(level=logging.INFO)  # INFOレベル以上のログを出力する。
64    main()

試したこと

一つずつ要素を取得できるか確認し
一つずつであれば問題なく動作することは確認できた。

driver = Chrome()
driver.get('https://note.mu/')
time.sleep(10)
div = driver.find_element_by_css_selector('.m-timelineItemWrapper__itemWrapper')

a = div.find_element_by_css_selector('a')
a.get_attribute('href')
>>>'https://note.com/tksit/n/nd5e4545af0ea'

div.find_element_by_css_selector('h3').text
>>>'音楽レーベル「4AD」に学ぶ、世界観のつくりかた'

行動規範の内容に同意します

回答2件

ベストアンサー

最後の2つの div 要素に a タグが含まれていない状態です(h3 や .o-noteAction__likeCount 要素もありません)。

python
1>>> driver = Chrome()
2>>> driver.get('https://note.mu/')
3>>> divs = driver.find_elements_by_css_selector('.m-timelineItemWrapper__itemWrapper')
4>>> divs[0].find_element_by_css_selector('a').get_attribute('href')
5'https://note.com/tksit/n/nd5e4545af0ea'
6>>> divs[-1].find_element_by_css_selector('a').get_attribute('href')
7                  :
8selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"a"}
9
10>>> divs[-2].find_element_by_css_selector('a').get_attribute('href')
11                  :
12selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"a"}
13
14>>> divs[-3].find_element_by_css_selector('a').get_attribute('href')
15'https://note.com/door13/n/n3630af16c3cc'

なので、a タグが存在しない div 要素が出現する時点で for ループを打ち切る様にしてみてはどうでしょうか。

python
1    # コンテンツを表すdiv要素について反復する。
2    for div in driver.find_elements_by_css_selector('.m-timelineItemWrapper__itemWrapper'):
3        try:
4            a = div.find_element_by_css_selector('a')
5        except NoSuchElementException:
6            break
7
8        try:
9            description = div.find_element_by_css_selector('p').text
10        except NoSuchElementException:
11            description = ' '  # 画像コンテンツなどp要素がない場合は空文字にする。
12

実行結果以下になります。

text
1{'url': 'https://note.com/tksit/n/nd5e4545af0ea', 'title': '音楽レーベル「4AD」に学ぶ、世界観のつくりかた', 'description': ' ', 'like': 55}
2{'url': 'https://note.com/dxia_pr/n/n52b19d523ad2', 'title': '現役データサイエンティストが語る！データサイエンティストってどんな仕事？', 'description': ' ', 'like': 51}
3                                   :
4
5{'url': 'https://note.com/shakunone/n/n32e15b56be14', 'title': '22年ぶりに父と話したとき。僕の手は震えていた。', 'description': ' ', 'like': 224}
6{'url': 'https://note.com/door13/n/n3630af16c3cc', 'title': '賞味期限切れのコーヒーがうれしかった', 'description': ' ', 'like': 153}

投稿2022/01/26 07:05