楽天ブックスからPythonのseleniumを使ってランキング情報を抽出

前提・実現したいこと

楽天ブックスのランキングから順位、タイトル、価格、URLを取得するコードを作成したいと思っています。１位の情報は取得することができるのですが、２位以下の情報を取得することができません。

該当のソースコード

python
1import sys
2import time
3
4from selenium import webdriver
5
6def main():
7
8    driver = webdriver.Chrome('PATH')
9    driver.set_window_size(800,600)#横幅800,縦幅600
10
11    navigate(driver)
12    posts = scrape_posts(driver)#文章コンテンツのリストを取得する
13
14    for post in posts:
15        print(post)
16    driver.quit()  # ブラウザーを終了する。
17
18
19def navigate(driver):
20    '''
21    目的のページを開く
22    '''
23    print('Navigating...',file=sys.stderr)
24    driver.get('https://books.rakuten.co.jp/book/?l-id=header-navi-book')
25    assert '楽天ブックス' in driver.title
26
27
28
29
30def scrape_posts(driver):
31
32    posts = []
33
34    for a in driver.find_elements_by_css_selector('ol'):
35
36        posts.append({
37            'rank': a.find_element_by_css_selector('b').text,
38            'title': a.find_element_by_css_selector('dt > a').text,
39            'value': a.find_element_by_css_selector('p.price').text,
40            'url': a.find_elements_by_css_selector('a')[0].get_attribute('href'),
41        })
42
43    return posts
44
45if __name__ == '__main__':
46    main()
47
48#1位
49#ランキング
50#extra > div:nth-child(5) > ol > li:nth-child(1) > b
51#URL、タイトル
52#extra > div:nth-child(5) > ol > li:nth-child(1) > dl > dt > a
53#価格
54#extra > div:nth-child(5) > ol > li:nth-child(1) > dl > dt > p.price
55
56#2位
57#ランキング
58#extra > div:nth-child(5) > ol > li:nth-child(2) > b
59#URL、タイトル
60#extra > div:nth-child(5) > ol > li:nth-child(2) > dl > dt > a
61#価格
62#extra > div:nth-child(5) > ol > li:nth-child(2) > dl > dt > p.price

実行結果

DevTools listening on ws://127.0.0.1:61750/devtools/browser/217d46f1-b992-42ae-9e1a-35f93f8674ed
Navigating...
{'rank': '1', 'title': 'こども六法', 'value': '1,320円（税込）', 'url': 'https://books.rakuten.co.jp/rb/15873916/?l-id=r-rank1-1'}

試したこと

driver.execute_script('scroll(0,document.body.scrollHeight)')

上記のコードでスクロールして取得しようとしたのですが結果は変わりませんでした。
どのようにすれば2位以下の情報を取得することができるのかご教授頂けると幸いです。

行動規範の内容に同意します

回答1件

ベストアンサー

for a in driver.find_elements_by_css_selector('ol'):

for a in driver.find_elements_by_css_selector('ol > li'):では？

投稿2019/11/22 14:56

otn

総合スコア84491

_eito_

2019/11/22 15:15

ご指摘いただいたコードで抽出することができました! しかしolだけではなぜだめなのでしょうか?

otn

2019/11/22 16:37

olの中にliがたくさんあります。olは1つです。 find_elements はその中の指定要素全部のリストを返しますが、find_element は指定要素の最初の物だけを返します。 olに対してfind_element すると、olの中にある指定要素の１つめだけが得られます。

_eito_

2019/11/23 11:38

わかりやすい回答ありがとうございました

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！