UnicideEncodeErrorを解消し、日本語を含むurlをurlopenで開きたい

解決したいこと

オライリー・ジャパンの「Pythonによるwebスクレイピング第２版」のコードを編集して試してみたところ、UnicodeEncodeErrorエラーが発生しました。
解決方法を教えて下さい。

発生している問題・エラー

UnicodeEncodeError: 'ascii' codec can't encode characters in position 10-15: ordinal not in range(128)

該当するソースコード

python3
1import io,sys
2sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')
3
4from urllib.request import urlopen
5from bs4 import BeautifulSoup
6import datetime
7import random
8import re
9
10random.seed(datetime.datetime.now())
11def getLinks(articleUrl):
12    html = urlopen('http://ja.wikipedia.org{}'.format(articleUrl))
13    bs = BeautifulSoup(html, 'html.parser')
14    return bs.find('div', {'id':'bodyContent'}).find_all('a', href=re.compile('^(/wiki/)((?!:).)*$'))
15
16links = getLinks('/wiki/アンパンマン')
17while len(links) > 0:
18    newArticle = links[random.randint(0, len(links)-1)].attrs['href']
19    print(newArticle)
20    links = getLinks(newArticle)

自分で試したこと

エラーコードを検索した結果解決策として出てきた
(https://hodalog.com/about-unicodeencodeerror-using-japanese-in-python-code/)
ため、コードの文頭に

import io,sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')

を追加しました。それでも同様のエラーが起きるため、同サイトと自分のコードとの条件を比較したところおそらくhttpがエラーの原因となっているのではと考察しましたが、解決の糸口はつかめませんでした。

元のコードは、英語のwikipediaの任意のページからランダムに項目リンクを見つけ、そこからhref属性を抽出し、ページを出力し、抽出したURLから新たなリンクのリストを取り出し、またループするというものです。これと同じ動きを日本語でも実装したいです。
よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

urllib.parse.quote を利用して URL エンコードを行う必要があります。

URL のクオート

URL クオート関数は、プログラムデータを取り URL 構成要素として使用できるよう特殊文字をクオートしたり非 ASCII 文字を適切にエンコードすることに焦点を当てています。

python
1import urllib
2
3def getLinks(articleUrl):
4    articleUrl = urllib.parse.quote(articleUrl)
5    html = urlopen('http://ja.wikipedia.org{}'.format(articleUrl))

投稿2021/12/07 00:42

melian

総合スコア21298

lion220

2021/12/07 01:00

ご回答ありがとうございます。訂正したところ、確かにエラーが解消されました。しかし、 urllib.error.HTTPError: HTTP Error 400: Bad Requestのエラーに引っかかってしまいました。試しに links = getLinks('/wiki/アンパンマ')と誤字を含んでみたところ、Error 404になったので取得したURL自体に間違いはないかと思うのですが、400 Errorは今回のコードではどこから生まれうるでしょうか。お忙しいところ恐縮ですが、お教え頂ければ幸いです。

melian

2021/12/07 01:14

getLinks でエンコードしないで、最初の呼び出しで URL エンコードを行うと問題なさそうです。 links = getLinks(urllib.parse.quote('/wiki/アンパンマン')) getLinks ====== def getLinks(articleUrl): html = urlopen('http://ja.wikipedia.org{}'.format(articleUrl)) bs = BeautifulSoup(html, 'html.parser') return bs.find('div', {'id':'bodyContent'}).find_all('a', href=re.compile('^(/wiki/)((?!:).)*$')) =====

lion220

2021/12/07 02:05 編集

なるほど、アンパンマンの時点でエンコードエラーが起きていたのだと理解しました。ありがとうございます。呼び出しでエンコードを行いgetLinksのエンコードをなくしたところ、エラーは出なくなりましたが出力も一切ありませんでした。エラーが出ているわけではないため、どう解釈して良いか悩みます。何度も申し訳ございませんが、教えていただけると幸いです。追記：実行したまま待機していると一気に多くのリンクの出力がありました。この問題は解決しました。本当にありがとうございます。

melian

2021/12/07 02:06

こちらの環境(Python 3.9/bs4 4.10.0/urllib 1.26.7)では延々と表示が続いています。

行動規範の内容に同意します