Pythonでのスクレイピングについて

前提・実現したいこと

Pythonにて「BeautifulSoup4」と「requests」を使いスクレイピングを試しています。
Yahooニュースから主要の欄にあるニュースのタイトルとそのリンク先をコマンドプロンプトにて表示したいのですがうまくいきません。

発生している問題

プログラムを実行してもタイトルは表示されるのですがリンクが「None」となります。

###環境

Windows10
Python : 3.8.5
beautifulsoup4 : 4.9.1
requests : 2.24.0

該当のソースコード

Python
1import requests
2from bs4 import BeautifulSoup
3
4url = "https://news.yahoo.co.jp/"
5response = requests.get(url)
6soup = BeautifulSoup(response.text, "lxml")
7elems = soup.select(".topicsListItem")
8
9
10def main():
11    for elem in elems:
12        print(elem.text)
13        print(elem.get("href"))
14
15
16if __name__ == "__main__":
17    main()

試したこと

soup.selectをsoup.find_allに変えたりしてもうまくいきませんでした。

行動規範の内容に同意します

回答2件

おそらく静的なHTML内には目的の要素がなく、Javascript等で後からレンダリングされているためだと思います。
Selenium等を絡めて、スクリプトが実行されて特定の要素が出現するまで待機するような処理が必要です。
以下、参考となりそうな記事です。

[Python] JavascriptでレンダリングされるWebページを、スクレイピングする

投稿2020/08/25 09:06

nekoniki

総合スコア2411

swk67018

2020/08/25 09:50

ありがとうございます！参考にしてみます！

行動規範の内容に同意します

自己解決

CSSセレクタの書き方がおかしかったようです。対象のHTMLコードの上で右クリックしてCopy -> Copy Selector を選択することで正しいCSSセレクタを得ることができました。

import requests
from bs4 import BeautifulSoup

url = "https://news.yahoo.co.jp/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "lxml")
#変更点
elems = soup.select("#contentsWrap > section.topics > div > div > div > ul > li > a")
#すべてのニュースを得るためにliタグを編集しました。


def main():
    for elem in elems:
        print(elem.text)
        print(elem.get("href"))


if __name__ == "__main__":
    main()

投稿2020/08/26 06:27

swk67018

総合スコア4