googleニュースをスクレイピングしたいができない。

タイトルの通りです。

以下のコードで実行するとNoneと出力されます

import urllib.request
from bs4 import BeautifulSoup

class Scraper:
    def __init__(self,site):
        self.site = site

    def scrape(self):
        r = urllib.request.urlopen(self.site)
        html = r.read()
        parser = "html.parser"
        sp = BeautifulSoup(html, parser)
        for tag in sp.find_all("a"):
            url = tag.get("html")
            if url is None:
                print(url)
                continue
            if "html" in url:
                print("\n"+url)


news ="http://news.google.com/"

Scraper(news).scrape()

googleニュースではなく私が普段見てる

http://jin115.com/

こちらのurlで試してみたところこちらではスクレイピングできました。

ほかにも

url = tag.get("html") →　url = tag.get("articles")

ともしてみたのですがこれでもNoneでした。

何卒ご教授お願いします。

ockeghem

2020/11/18 07:39

http://news.google.com/ ではなく https://news.google.com/ だと思いますが、httpsにするとどうなりますか?

行動規範の内容に同意します

回答2件

こちらは恐らく何かの参考書のコードかと思いますが、teratailでは度々このコードについて同じ質問があり
いつからかhttp://news.google.com/側の仕様が変わっており
既にそのままのコードでは正常に動作しない様な仕組みになってしまっている様です。

結論

コード自体が問題あるというわけではなく
対象のページ側の仕様変更によって、そのままではコードが使用できなくなっている。

参考:teratail - Webスクレイピングコードが動作しません

投稿2020/11/18 08:14

編集2020/11/18 08:17

nto

総合スコア1438

自己解決

いじりかたを間違えてました
tag.get("html")ではなくtag.get("href")が正しかったです。

しかし、それでも
if "html" in url:

では動きませんでした。独学プログラマーという本の通りに書いてるのですが。。。

import urllib.request
from bs4 import BeautifulSoup


class Scraper:
    def __init__(self, site):
        self.site = site

    def scrape(self):
        response = urllib.request.urlopen(self.site)
        html = response.read()
        soup = BeautifulSoup(html, "html.parser")
        for tag in soup.find_all("a"):
            url = tag.get("href")
            if url and "article" in url:
                print("\n" + "https://news.google.com/"+url)

Scraper('https://news.google.com/').scrape()

このコードで本の狙いと同じことができてるのかはわかりませんが一応ちゃんとアクセスできるurlは出力できました。

投稿2020/11/18 08:05

yaha4967

総合スコア106