タイトルの通りです。
以下のコードで実行するとNoneと出力されます
import urllib.request from bs4 import BeautifulSoup class Scraper: def __init__(self,site): self.site = site def scrape(self): r = urllib.request.urlopen(self.site) html = r.read() parser = "html.parser" sp = BeautifulSoup(html, parser) for tag in sp.find_all("a"): url = tag.get("html") if url is None: print(url) continue if "html" in url: print("\n"+url) news ="http://news.google.com/" Scraper(news).scrape()
googleニュースではなく私が普段見てる
こちらのurlで試してみたところこちらではスクレイピングできました。
ほかにも
url = tag.get("html") → url = tag.get("articles")
ともしてみたのですがこれでもNoneでした。
何卒ご教授お願いします。
http://news.google.com/ ではなく https://news.google.com/ だと思いますが、httpsにするとどうなりますか?
回答2件
あなたの回答
tips
プレビュー