Beautifulsoup4を使ったスクレイピング

Question

### 前提・実現したいこと beautifulsoup4を使い参考書通りにスクレイピングを試したところこのようなエラー文が出ました。 ### 発生している問題・エラーメッセージエラーメッセージ Traceback (most recent call last): File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/urllib/request.py", line 1348, in do_open h.request(req.get_method(), req.selector, req.data, headers, File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/http/client.py", line 1282, in request self._send_request(method, url, body, headers, encode_chunked) File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/http/client.py", line 1328, in _send_request self.endheaders(body, encode_chunked=encode_chunked) File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/http/client.py", line 1277, in endheaders self._send_output(message_body, encode_chunked=encode_chunked) File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/http/client.py", line 1037, in _send_output self.send(msg) File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/http/client.py", line 975, in send self.connect() File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/http/client.py", line 1454, in connect self.sock = self._context.wrap_socket(self.sock, File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/ssl.py", line 512, in wrap_socket return self.sslsocket_class._create( File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/ssl.py", line 1070, in _create self.do_handshake() File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/ssl.py", line 1341, in do_handshake self._sslobj.do_handshake() ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:997) During handling of the above exception, another exception occurred: Traceback (most recent call last): File "/Users/user/Desktop/skuraiping.py", line 3, in response = request.urlopen('https://www.pasonatech.co.jp/') File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/urllib/request.py", line 216, in urlopen return opener.open(url, data, timeout) File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/urllib/request.py", line 519, in open response = self._open(req, data) File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/urllib/request.py", line 536, in _open result = self._call_chain(self.handle_open, protocol, protocol + File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/urllib/request.py", line 496, in _call_chain result = func(*args) File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/urllib/request.py", line 1391, in https_open return self.do_open(http.client.HTTPSConnection, req, File "/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/urllib/request.py", line 1351, in do_open raise URLError(err) urllib.error.URLError: ### 該当のソースコード import urllib.request from bs4 import BeautifulSoup class Scraper: def __init__(self, site): self.site = site def scrape(self): r = urllib.request.urlopen(self.site) html = r.read() parser = "html.parser" sp = BeautifulSoup(html,parser) for tag in sp.find_all("a"): url = tag.get("href") if url is None: continue if "html" in url: print(" " + url) news = "https://news.google.com/" Scraper(news).scrape() ### 試したこと http://d-prototype.com/archives/17281　　エラー文をコピペして検索したところこのサイトが出てきて試してみたのですが解決しませんでした。 ### 補足情報（FW/ツールのバージョンなど） https://www.python.org/downloads/　このサイトからmacに最新版の3.10.1をダウンロードしました。 beautifulsoup4のバージョンは4.8.1です。またこのコード以外にも試してみたのですが、同じようなエラー文が表示されます。

Accepted Answer

[Unable to get local issuer certificate when using requests in python](https://stackoverflow.com/questions/51925384/unable-to-get-local-issuer-certificate-when-using-requests-in-python)と同じ状況なのかもしれません。

- `certifi`のインストール(アップグレード)
- `Certificates.command`の実行

で解消するかもしれません。

また[公式サイト Python.org からのインストール（Mac）](https://oku.edu.mie-u.ac.jp/~okumura/python/install.html)

> https サイトのスクレイピングで証明書エラーになる場合は次のコマンドの管理者権限での実行が必要になるようです：
sudo /Applications/Python\ 3.9/Install\ Certificates.command

ともあります。`3.9`の部分はVersionによって異なるかと思います。

Answer

`urllib.request`・・・指定したURLのHTMLを取得
`BeautifulSoup`・・・取得したHTMLの解析
という役割で、BeautifulSoupに行く前に取得段階でエラーです。
なので、BeautifulSoupはエラーとは全く関係ないです。

SSLエラーなので、環境がおかしいと思われますが、
「どういう環境にどうやって（再現できるレベルで具体的に）Pythonをインストールしたか」
を書くと、その環境がわかる人がアドバイスをくれるかも。

Answer

こちらでは問題なく動きます。

"https://news.google.com/"に頻繁にアクセスして拒否されているのかもしれません。

```python
news = "https://teratail.com/questions/374015"
```
としても同じエラーが起きるようなら教えてください。

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問