スクレイピングが上手く実行できない

前提・実現したいこと

発生している問題・エラーメッセージ

スクレイピングのコードを書いたのですが、htmlが表示されません。
どこに問題があるのか教えていただけますと幸いです。

エラーメッセージ：無し

該当のソースコード

Python
1import urllib.request
2from bs4 import BeautifulSoup
3
4class Scraper:
5    def __init__(self,site):
6        self.site = site
7    
8    def scrape(self):
9        r = urllib.request.urlopen(self.site)
10        html = r.read()
11        parser = "html.parser"
12        sp = BeautifulSoup(html,parser)
13        for tag in sp.find_all("a"):
14            url = tag.get("href")
15            if url is None:
16                continue
17            if "href" in url:
18                print(url)    
19
20news = "https://news.google.com/"
21Scraper(news).scrape()

行動規範の内容に同意します

回答1件

ベストアンサー

https://news.google.com/ のソースコードをみてみると、ほとんどが圧縮されたjavascript で、実際の UI は javascript により動的に生成しているようです。
このため、 javascript により実際に動的に生成される html からスクレイピングしないと、<a> タグの URL を抜き出すことはできません。

Selenium など、実際のブラウザを制御するタイプのクローラを用いるのはいかがでしょうか？

投稿2019/07/01 00:28