htmlのh3要素のテキストが日本語として認識されない

以下のコードで h3要素の切り出しは出来ているようです

import requests
from bs4 import BeautifulSoup

url = 'http://yasumasa.jp/2020/08/21/post_4688.html'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')
haikus = soup.select('#center > div > h3')
for haiku in haikus:
    print(haiku)
    txt = haiku.text
    print(txt)
コード

しかし、h3の中身は日本語として認識されていないようです

ターミナルの出力は以下の通りです

デバッグビューの変数txtの値は以下の通りです

txt: 'é°¯é\x9b²å\x80\x8bã\x80\x85ä¸\x80å\x88\x87äº\x8bå\x9c°ä¸\x8aã\x81«ã\x81\x82ã\x82\x8a'

htmlの文字コードは utf-8と指定されています

ここをどのようにしたら、h3の中身が正しい日本語として取得できるでしょうか

ご助力お願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

ここをどのようにしたら、h3の中身が正しい日本語として取得できるでしょうか

r.textのかわりにr.contentを使うとできます。

python
1>>> import requests
2>>> from bs4 import BeautifulSoup
3>>>
4>>> url = 'http://yasumasa.jp/2020/08/21/post_4688.html'
5>>> r = requests.get(url)
6>>> soup = BeautifulSoup(r.content, 'html.parser')
7>>> haikus = soup.select('#center > div > h3')
8>>> for haiku in haikus:
9...     print(haiku)
10...     txt = haiku.text
11...     print(txt)
12...
13<h3>鰯雲個々一切事地上にあり</h3>
14鰯雲個々一切事地上にあり