noteの個別のページをスクレイピングしてURL、タイトル、概要を取得したいです。

環境　MacBookPro14,1　python3.7
pythonで sys　と　seleniumから webdriver　をimportしています。

http://gihyo.jp/book/2017/978-4-7741-8367-1
Pythonクローリング＆スクレイピングをもとにnoteのスクレイピングを試みています。

個別のnoteからURL、タイトル、概要を取得したいです。そのため本の中のこの関数（古くなったのかこちらの　https://note.mu/　のトップページでも機能しない関数）をいじっています。

def scrape_posts(driver):
    posts = []
    for a in driver.find_elements_by_css_selector('a.p-post--basic'):
        posts.append({
            'url': a.get_attribute('href'),
            'title': a.find_element_by_css_selector('h4').text,
            'description': a.find_element_by_css_selector('.c-post__description').text,
        })
    return posts

上記関数をいじって例えば　Dai先生のnote https://note.mu/daikawai からURL、タイトル、概要を取得したいです。

def scrape_posts(driver):
    posts = []
    for a in driver.find_elements_by_css_selector('div.renewal-p-cardItem'):
        posts.append({
            'url': a.get_attribute('href'),
            'title': a.find_element_by_css_selector('h3').text,
            'description': a.find_element_by_css_selector('.renewal-p-cardItem__description').text,
        })
    return posts

タイトル、概要は取得できたのですが、URLが取得できません。
https://note.mu/daikawai　の記事のURLを取得するのに　上記　href　はなにと取り替えればよいでしょうか？

教えてください。よろしくお願いします。

行動規範の内容に同意します

回答1件

ベストアンサー

こんにちは。
下のコードでどうでしょう。

Python
1a.find_elements_by_css_selector('a')[0].get_attribute('href')

なお、上のコードを見てもわかるように、
forループで回しているのはcardItemなので
変数名を for card in driver ... などにするとよいです。

投稿2019/01/30 02:56

firedfly

総合スコア1131

giro1975

2019/01/30 04:34

ありがとうございます。できました。変数名のアドバイスもありがとうございます。理解が深まりました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

noteの個別のページをスクレイピングしてURL、タイトル、概要を取得したいです。

関連した質問