前提・実現したいこと
Googleニュースのヘッドラインタイトルを一括取得したいのですが、できません。
取得するのは、ヘッドラインタイトルだけです。
できるだけシンプルな構文にしたいです。
どうやら2020年11月に仕様変更があったらしく、過去のPython解説ページを見てソースコードを利用しても
うまくできません。
構文の作り方もよくわからず……
申し訳ございませんが、ご教示いただけますでしょうか。
発生している問題・エラーメッセージ
https://news.google.com/./articles/CAIiEA4g--wP9W2E5wCTRDtFzvYqGQgEKhAIACoHCAowtv3_CjCSposDMLX54gU?hl=en-US&gl=US&ceid=US%3Aen
というようなリンクのようなものが多数表示されます。
該当のソースコード
import urllib.request
from bs4 import BeautifulSoup
class Scraper:
def init(self, site):
self.site = site
def scrape(self): response = urllib.request.urlopen(self.site) html = response.read() soup = BeautifulSoup(html, "html.parser") for tag in soup.find_all("a"): url = tag.get("href") if url and "article" in url: print("\n" + "https://news.google.com/"+url)
Scraper('https://news.google.com/').scrape()
補足情報(FW/ツールのバージョンなど)
Python 3.9
BeautifulSoup4
requests
VisualStudio Codeを使ってます。
よろしくお願いいたします。
あなたの回答
tips
プレビュー