現在、Pythonを始めて、ニュースのスクレイピングできるようになりたいと思っています。
以下のプログラムでGoogleニュースのヘッドライン記事を集めようとしましたが、何も返してくれません。
このプログラミングを動かしている環境は
Windows10でJupyter Notebookで書いています。
原因と解決策を教えていただけないでしょうか?
python
1import urllib.request 2from bs4 import BeautifulSoup 3 4 5class Scraper: 6 def __init__(self, site): 7 self.site = site 8 9 def scrape(self): 10 r = urllib.request.urlopen(self.site) 11 html = r.read() 12 parser = "html.parser" 13 sp = BeautifulSoup(html, parser) 14 for tag in sp.find_all("a"): 15 url = tag.get("href") 16 if url is None: 17 continue 18 if "html" in url: 19 print("\n" + url) 20 21news = "https://news.google.com/" 22Scraper(news).scrape()
あなたの回答
tips
プレビュー